日常 web 端爬蟲過程中,經常會遇到引數被加密的場景,因此,我們需要分析網頁源**
通過調式,一層層剝離出關鍵的 js **,使用 python 去執行這段**,得出引數加密前後的 python 實現
本文將聊聊利用 python 呼叫 js 的4種方式
以一段簡單的 js 指令碼為例,將**寫入到檔案中
//計算www.cppcns.com兩個數的和
function add(num1, num2)
其中,定義了乙個方法,計算兩個數的和
pyexecjs 是使用最多的一種方式,底層實現方式是:在本地 js 環境下執行 js **
支援的 js 環境包含:node.js、pyv8、phantomjs、nashorn 等
首先,我們需要安裝依賴包 pyexecjs
//py_exec_js_demo.py
//安裝依賴
pip3 install pyexecjs
然後,從 js 檔案中讀取原始碼
def js_from_file(file_name):
"""讀取js檔案
:return:
"""with open(file_name, 'r', encoding='utf-8') as file:
result = file.read()
return result
最後,使用 execjs 類的compile()方法編譯載入上面的 js 字串,返回乙個上下文物件
import execjs
from js_code import *
# 編譯載入js字串
context1 = execjs.compile(js_from_file('./norm.js')程式設計客棧)
最後,呼叫上下文物件的call() 方法執行 js 方法
其中,引數包含:js **被調的方法名、對應方法的傳入引數
# 呼叫js**中的add()方法,引數為2和3
# 方法名:add
# 引數:2和3
result1 = context1.call("add", 2, 3)
print(result1)
需要注意的,由於 pyexecjs 執行在本地 js 環境下,使用之前會啟動 js 環境,最終導致執行速度會偏慢
更多功能可以參考:
js2py作為乙個純 python 實現的 js 直譯器,可以完全脫離 js 環境,直接將 js **轉krayiqqx換為 python **
首先,安裝依賴庫
# 安裝依賴庫
pip3 install js2py
然後使用 js2py 中的evaljs()方法生成乙個上下文物件
# 使用獲取上下js2py生成乙個上下文環境
context = js2py.evaljs()
接著利用上下文物件執行 js 指令碼,轉換為 python **
# 執行整段js**
context.execute(js_content)
最後,利用上下文呼叫 js 中的方法,並制定輸入引數即可
# 使用上下文context呼叫具體的函式
# 函式名:add
# 引數:1,2
result = context.add(1, 2)
print(result)
需要注意是,如果 js 是很長的混淆**,轉換為 python 的過程可能會報錯
更多功能可以參考:
實際上是使用 python 的os.popen執行 node 命令,執行 js 指令碼
首先,確保本地已經安裝了 node.js 環境
修改 js 指令碼,新增乙個匯出函式 init ,方便內部函式被呼叫
//計算兩個數的和
function add(num1, num2)
//新增乙個匯出函式(node方式)
module.exports.init = function (arg1, arg2) ;
然後,將呼叫 js 方法的命令組成乙個字串
# 組成呼叫js的命令
# node命令:node -e
cmd = 'node -e "require(\\"%s\\").init(%s,%s)"' % ('./norm', 3, 5)
最後,通過 os. 執行命令即可
pipeline = os.popen(cmd)
# 讀取結果
result = pipeline.read()
print('結果是:', result)
pyv8 是 google 將 chrome v8 引擎用 python 封裝的依賴庫
它不依賴本地 js 環境,執行速度很快
import pyv8
from js_code import js_from_file
with pyv8.jscontext() as ctx:
ctx.eval(js_from_file('./norm.js'))
# 呼叫js程式設計客棧函式,指定引數
ctx.locals.add(1, 2)
更多功能可以參考:
上面總結了 python 呼叫 js 的 4 種方式
實際爬蟲專案中,一般會先使用 node 命令進行一次測試,確保沒問題後,再使用前 3 種方式的任意一種進行 python 改寫
示例**位址:
js種函式呼叫的四種方式
函式呼叫 this指向 window 返回值 由return值決定,如果沒有return語句就表示沒有返回值 案例1 function f1 f1 window 案例2 function f2 var f2n f2 f2n this window 這也是一次函式呼叫模式 案例3 functioon ...
js高階 函式呼叫的四種方式
function fn 1 直接呼叫 fn 2 當成構造函式呼叫 new fn 建構函式規範寫法為首字母大寫,此處只為說明問題 附加說明 建構函式的返回值情況 1 建構函式沒有手動新增返回值,返回建構函式的例項 2 建構函式返回基本資料型別的值,返回的還是建構函式的例項 3 建構函式返回物件型別的值...
js中函式呼叫的四種方式
每種方式的不同在於this的指向 funtion func a,b func 1,2 以上的函式是屬於全域性物件的函式,在html中此函式是屬於html全域性物件的,在window中此函式是屬於window全域性物件的。因此,在瀏覽器中,window.func func 以上的函式中this指向全域...