python反爬蟲策略 python反爬蟲手冊

user-agent識別

修改請求頭資訊裡的user-agent

請求頭資訊識別

比如說referer, content-type,請求方法(post, get)

構造相應的請求頭資訊。比如說referer，我們在提取url的時候，要把url所在頁面的url也儲存起來，並放到request.headers。

非同步載入

我們需要分析頁面的網路請求，從中找出和我們想要的資料相關的請求，並分析它的請求頭資訊、引數、cookie，然後根據這些資訊構造我們的請求。通常來說都是ajax請求，也有請求，比如的lazy load，通過js在頁面載入後修改的src屬性。一般都會有其他的自定義屬性存在，比如說"_src"。總之，可以找到一些id或者鏈結。注意觀察相關dom節點樹上的特殊屬性。

請求引數加密

一般是在前端通過一定的計算，構造出乙個雜湊值。需要分析前端的**，找出具體計算的**邏輯，並用python再實現。如果前端的**經過混淆，並且**量十分巨大，可以使用selenium或者splash等引擎去請求。但是，如果爬取的資料需求量比較大，我們還是要通過直接呼叫對方介面的形式去獲取資料。

請求結果加密

1. json資料裡面加密

比如攜程酒店房型列表介面，用它自己的js解密，或者分析它的js前端邏輯，用python**實現出來。

2. css加密

比如大眾點評，通過css樣式去代替某個字元。我們需要同時爬取css檔案，並且分析css檔案內的樣式，最後定位到svg檔案，並分析提取svg內的內容，完成替換。

3. 字型加密

cookie限制

登入、session限制，比如新片場，拿到登入以後的cookie，然後set到頭資訊裡面，這樣請求的時候就相當於登入了。

ip頻率限制

需要準備大量的ip**，獲得ip**的方式有：

自己搭建**伺服器(tinyproxy, squid+動態撥號，ddns)

付費購買

爬取公開網路上**(可用性比較低)

控制爬取頻率，保持不被封的情況下的最合適的併發數量。

驗證碼：

嘗試可否繞過前端驗證，直接請求具體的介面，以繞開驗證碼.

可以用識別庫去識別某些比較簡單的驗證碼

接入雲打碼平台

用機器學習訓練驗證碼的庫，然後識別

python反爬蟲策略 python反爬蟲手冊

反爬蟲策略總結

Scrapy繞過反爬蟲策略

抖音爬蟲教程，python爬蟲採集反爬策略

python反爬蟲策略 python反爬蟲手冊

反爬蟲策略總結

Scrapy繞過反爬蟲策略

抖音爬蟲教程，python爬蟲採集反爬策略

相關推薦