我們都知道python用來爬資料,為了不讓自家的資料被別人隨意的爬走,你知道怎麼反爬嗎?今天播妞帶著大家一起見識見識常見的反爬技術。
首先我們來看一下爬蟲程式和反爬蟲之間的一張邏輯圖:
以下說4種**反爬蟲方式。
1.通過user-agent來控制訪問
無論是瀏覽器還是爬蟲程式,在向伺服器發起網路請求的時候,都會發過去乙個標頭檔案:headers, 表明身份。
對於爬蟲程式來說,最需要注意的字段就是:user-agent
很多**都會建立 user-agent白名單,只有屬於正常範圍的user-agent才能夠正常訪問。
解決方法:
可以自己設定一下user-agent,或者更好的是,可以從一系列的user-agent裡隨機挑出乙個符合標準的使用。
2.通過js指令碼來防止爬蟲
舉個例子:如果想爬取某個**,在請求之前,它會有乙個驗證頁面來驗證你是否機器。
它是怎麼實現的呢:
他會通過js**生成一大段隨機的數字,然後要求瀏覽器通過js的運算得出這一串數字的和,再返回給伺服器。
解決方法:
使用phantomjs
python爬蟲常見反爬措施
1.ip封鎖 常見 反爬蟲首先考慮到會不會對使用者產生誤傷,舉個例子,在校園網內,有台機器對 持續高頻繁產生請求,校園網涉及使用者過多,但是如果封鎖ip那麼會對校園中的使用者產生誤傷,喪失了許多使用者量,就拿某寶那麼大的公司來說,不到萬不得已時,不會對ip進行長時間或者進行封鎖。解決方案 1.採用修...
常見的反爬手段和解決思路
誤傷 在反爬蟲的過程中,錯誤的將普通使用者識別為爬蟲。誤傷率高的反爬蟲策略,效果再好也不能用。攔截 成功地阻止爬蟲訪問。這裡會有攔截率的概念。通常來說,攔截率越高的反爬蟲策略,誤傷的可能性就越高,因此需要做個權衡。資源 機器成本與人力成本的總和。1 通過headers欄位來反爬headers中有很多...
Python 常見反爬策略及應對方案彙總
2019常見反爬策略及應對方案大彙總了。如果你對反爬蟲的策略和手段還掌握的不很全面,進來學就對了!一切都是剛剛好,一切都不晚!1 構造合理的http請求頭。accept user agent 三方庫fake useragent from fake useragent import useragent...