Python爬蟲實踐 1 對反爬機制的認識

2022-09-16 16:42:10 字數 987 閱讀 8739

51zxw發布了乙個新課程,是今年二月份的,現在總算是辭職空下來時間了,想著學習下爬蟲吧,反正學了也不虧。爬蟲算是最簡單的東西了,爬蟲背靠資料探勘、資料分析和機器學習,與大資料和ai相比顯得沒那麼高大上,隨便乙個程式設計師都能寫乙個的小爬蟲。可是,在資料封鎖隱藏,反爬機制不斷深入的今天,如何設計爬蟲分布式執行架構、有效高匿的**池、反封號防遮蔽、清洗儲存有效資料、優化爬取策略、結合大資料技術,更有效率有質量地獲取資料等等云云,也不是看似那麼簡單。因為當今世紀,資料即是一切,小小爬蟲,一定程度上成為了可用資訊的源頭,這就是爬蟲存在的意義。

工欲善其事必先利其器,自學網老師示例用的是sublime,但是接近年底,packge-control因為某些(河蟹)因素暫停了服務(也可能是白嫖的人太多了 ..迫真),之前寫selenium又一直用的pycharm,索性就接著用吧。。,配置下anaconda直譯器,完事開幹。

爬蟲 本質上來講 就是做乙個模擬瀏覽器的工作。從最開始的模擬瀏覽器發 http 請求,發 websocket 請求,到後面的模擬瀏覽器編譯 js,其實做的都是一件事情。

簡單反爬機制

1.請求頭驗證  user-agent、cookie、 referer

請求頭和跳轉源是第一層反爬保護,模擬user-agent不同瀏覽器、客戶端的http請求頭,新增referer標籤模擬跳轉源

2.ip 限制 高匿ip**、自建ip池(adsl撥號每次也會分配不同ip),ip訪問頻率設定

驗證機器還是人的操作,同一ip多次高頻會被永久封禁

3.登陸驗證限制

文字選擇、劃線、拖動、結合語義識別(或設定識別線),cookie,ocr,pytesseract,selenium模擬操作,手動輸入驗證碼?。。網路爬人?

4.非靜態頁 js混淆加密,ajax非同步載入

哦****,js反爬,一般兩種思路,python重寫js內容或execjs第三方庫解析js。oh **** 後面在學吧,文字替換,js混淆,加密演算法相關知識太多了,好在得慢慢學,還有無頭瀏覽器+selenium有奇效 bingo >__<

python爬蟲反爬 爬蟲怎麼測試反爬?

有沒有反爬,如果你沒有用爬蟲抓取過,你是不可能知道的。就算要測試,你還要嘗試不同的delay。如果設定的 delay 在 的反爬頻率外,那就測不出來。如果在頻率內,那就被封。或者封ip,或者封賬號。如果一定要測出來,就簡單粗暴的方法,你不要設定delay,就不間斷的抓,最後出現兩種情況,1 有反爬,...

python爬京東 反爬 爬蟲怎麼測試反爬?

有沒有反爬,如果你沒有用爬蟲抓取過,你是不可能知道的。就算要測試,你還要嘗試不同的delay。如果設定的 delay 在 的反爬頻率外,那就測不出來。如果在頻率內,那就被封。或者封ip,或者封賬號。如果一定要測出來,就簡單粗暴的方法,你不要設定delay,就不間斷的抓,最後出現兩種情況,1 有反爬,...

Python爬蟲 字型反爬

網頁開發者自己創造一種字型,因為在字型中每個文字都有其代號,那麼以後在網頁中不會直接顯示這個文字的最終的效果,而是顯示他的代號,因此即使獲取到了網頁中的文字內容,也只是獲取到文字的代號,而不是文字本身。因為創造字型費時費力,並且如果把中國3000多常用漢字都實現,那麼這個字型將達到幾十兆,也會影響網...