反爬以及解決思路

2021-08-24 23:11:37 字數 1021 閱讀 4336

常見的反爬手段和解決思路

明確反反爬的主要思路

反反爬的主要思路就是:盡可能的去模擬瀏覽器,瀏覽器在如何操作,**中就如何去實現。瀏覽器先請求了位址url1,保留了cookie在本地,之後請求位址url2,帶上了之前的cookie,**中也可以這樣去實現。

很多時候,爬蟲中攜帶的headers欄位,cookie欄位,url引數,post的引數很多,不清楚哪些有用,哪些沒用的情況下,只能夠去嘗試,因為每個**都是不相同的。當然在盲目嘗試之前,可以參考別人的思路。(個人小小建議)

2.通過headers欄位來反爬

2.1 通過headers中的user-agent欄位來反爬

通過user-agent欄位反爬的話,只需要給他在請求之前新增user-agent即可,更好的方式是使用user-agent池來解決,我們可以考慮收集一堆user-agent的方式,或者是隨機生成user-agent

2.2 通過referer欄位或者是其他欄位來反爬

通過referer欄位來反爬,我們只需要新增上即可

2.3 通過cookie來反爬

如果目標**不需要登入 每次請求帶上前一次返回的cookie,比如requests模組的session

如果目標**需要登入 準備多個賬號,通過乙個程式獲取賬號對應的cookie,組成cookie池,其他程式使用這些cookie

3.通過js來反爬

4.通過驗證碼來反爬

通過打碼平台或者是機器學習的方法識別驗證碼。

5.通過ip位址來反爬

同乙個ip大量請求了對方伺服器,有更大的可能性會被識別為爬蟲,對應的通過購買高質量的ip的方式能夠解決問題

6.其他的反爬方式

6.1 通過自定義字型來反爬

6.2 通過css來反爬

常見的反爬手段和解決思路

誤傷 在反爬蟲的過程中,錯誤的將普通使用者識別為爬蟲。誤傷率高的反爬蟲策略,效果再好也不能用。攔截 成功地阻止爬蟲訪問。這裡會有攔截率的概念。通常來說,攔截率越高的反爬蟲策略,誤傷的可能性就越高,因此需要做個權衡。資源 機器成本與人力成本的總和。1 通過headers欄位來反爬headers中有很多...

反爬手段以及應對的方法

概念 前言weixin.sogou.com 是乙個反爬極其嚴厲的站點。ip位址,cookie,驗證碼都有限制。尤其對cookie的限制 爬取 sogou.weixin.com 的 http 請求的 cookie 中,必須包含四個引數 snuid suid ppinf 和ppmdig。其中 snuid...

python爬京東 反爬 爬蟲怎麼測試反爬?

有沒有反爬,如果你沒有用爬蟲抓取過,你是不可能知道的。就算要測試,你還要嘗試不同的delay。如果設定的 delay 在 的反爬頻率外,那就測不出來。如果在頻率內,那就被封。或者封ip,或者封賬號。如果一定要測出來,就簡單粗暴的方法,你不要設定delay,就不間斷的抓,最後出現兩種情況,1 有反爬,...