1.通過ua識別爬蟲:有些爬蟲的ua是特殊的,與正常瀏覽器的不一樣,可通過識別特徵ua,直接封掉爬蟲請求
2.設定ip訪問頻率,如果超過一定頻率,則封掉爬蟲請求
3.彈出驗證碼:如果輸入正確的驗證碼,則放行,如果沒有輸入,則拉入禁止一段時間,如果超過禁爬時間,再次觸發驗證碼,則拉入黑名單。當然根據具體的業務,為不同場景設定不同閾值,比如登入使用者和非登入使用者,請求是否含有refer
4.通過併發識別爬蟲:有些爬蟲的併發是很高的,統計併發最高的ip,加入黑名單(或者直接封掉爬蟲ip所在c段)
5.請求的時間視窗過濾統計:爬蟲爬取網頁的頻率都是比較固定的,不像人去訪問網頁,中間的間隔時間比較無規則,所以我們可以給每個ip位址建立乙個時間視窗,記錄ip位址最近12次訪問時間,每記錄一次就滑動一次視窗,比較最近訪問時間和當前時間,如果間隔時間很長判斷不是爬蟲,清除時間視窗,如果間隔不長,就回溯計算指定時間段的訪問頻率,如果訪問頻率超過閾值,就轉向驗證碼頁面讓使用者填寫驗證碼
6.限制單個ip/api token的訪問量:比如12分鐘限制訪問頁面180次,具體標準可參考一些大型**的公開api,如twitter api,對於抓取使用者公開資訊的爬蟲要格外敏感
7.蜜罐資源:爬蟲解析離不開正規表示式匹配,適當在頁面新增一些正常瀏覽器瀏覽訪問不到的資源,一旦有ip訪問,這些ip在網上都可以找到。校驗出來ip不在白名單就可以阻止訪問內容
爬蟲基礎概念
目錄開發工具和chrome的安裝 chrome抓包工具 http協議 爬蟲是乙個模擬人類請求 行為的程式。可以自動請求網頁 並把資料抓取下來,然後使用一定的規則提取有價值的資料 惠惠購物助手。資料分析。搶票軟體等。語法優美 簡潔 開發效率高 支援的模組多。相關的http請求模組和html解析模組非常...
Python 爬蟲 概念基礎
通過編寫的程式,模擬瀏覽器,然後通過網際網路抓取資料分過程 爬蟲在使用中的分類 通用爬蟲 抓取系統的重要主城部分,抓取的是整張頁面的資料。聚焦爬蟲 建立在通用爬蟲的基礎上,抓取的是頁面中特定的內容。增量式爬蟲 檢測 中資料更新的情況,只會抓取 中最新更新的資料。反爬機制 各個 通過制定相應的策略或技...
python爬蟲之基礎概念篇
最近在學爬蟲,把學習過程做個記錄,也方便自己以後檢視。一 基礎概念篇 爬蟲在使用場景中的分類 通用爬蟲 抓取系統重要組成部分。抓取的是一整張頁面資料。聚焦爬蟲 是建立在通用爬蟲的基礎之上。抓取的是頁面中特定的區域性內容。增量式爬蟲 檢測 中資料更新的情況。只會抓取 中最新更新出來的資料。robots...