**有沒有反爬,如果你沒有用爬蟲抓取過,你是不可能知道的。
就算要測試,你還要嘗試不同的delay。
如果設定的 delay 在**的反爬頻率外,那就測不出來。
如果在頻率內,那就被封。或者封ip,或者封賬號。
如果一定要測出來,就簡單粗暴的方法,你不要設定delay,就不間斷的抓,最後出現兩種情況,
1、**有反爬,你被封。
然後呢,這個結果沒意義,除非你能準備測試出**反爬的那個頻率,才能針對的做出一些防反爬的措施。
2、**沒反爬,沒被封。
這個好像是你要的結果。但是這個也有不同情況,你要測多長時間,才能觸發到**的反爬機制。
還有,相同的delay,相同的**,用不同工具抓取,也會出現不同的效果。
其實,不管你抓什麼**,就道德方面,你都要把**當成有反爬來對待。如果因為**沒反爬,你就不設定delay,不停的抓取,佔據**的頻寬,那正常的使用者,可能就會出現一些無法響應等的異常情況,這不道德啊。
如果你是程式設計的話,設定隨機delay,隔段時間切換ip。
如果你是使用工具,比如火車頭、八爪魚、webscraper的話,我建議使用webscraper
webscraper是個谷歌外掛程式,有如下優點——免費
不受作業系統限制,只要安裝chrome瀏覽器即可執行
操作簡單,易上手。(很多沒有技術背景的同學,都可以快速學會)
功能強大:不僅可以抓靜態網頁,對於js動態載入的資料,也很容易抓取
根據已經測試的經歷,下列型別**均可抓取——58同城、大眾點評、美團、鏈家等
**、阿里巴巴、網易嚴選等可以在瀏覽器檢視到的資料,99%均可抓取。
而且防反爬比其他工具好很多,據實踐研究,用其他工具很容易被封的**,用webscraper就沒事。
下面這個**有學習webscraper的系統資料,有興趣可以看看。不用寫**的爬蟲技能 | 知識星球精選站www.zsxq100.com
python爬京東 反爬 爬蟲怎麼測試反爬?
有沒有反爬,如果你沒有用爬蟲抓取過,你是不可能知道的。就算要測試,你還要嘗試不同的delay。如果設定的 delay 在 的反爬頻率外,那就測不出來。如果在頻率內,那就被封。或者封ip,或者封賬號。如果一定要測出來,就簡單粗暴的方法,你不要設定delay,就不間斷的抓,最後出現兩種情況,1 有反爬,...
Python爬蟲 字型反爬
網頁開發者自己創造一種字型,因為在字型中每個文字都有其代號,那麼以後在網頁中不會直接顯示這個文字的最終的效果,而是顯示他的代號,因此即使獲取到了網頁中的文字內容,也只是獲取到文字的代號,而不是文字本身。因為創造字型費時費力,並且如果把中國3000多常用漢字都實現,那麼這個字型將達到幾十兆,也會影響網...
python爬蟲(5)爬蟲高階知識 反爬
1 path環境變數的作用 為了讓cmd找到各種命令exe工具,配path就找exe所在目錄配置就可以了。c anaconda3 scripts 找pip.exe c anaconda3 python.exe 2.修改完path,要重啟cmd pip install asyncio第五講 動態htm...