爬蟲基礎概念

1.通過ua識別爬蟲：有些爬蟲的ua是特殊的，與正常瀏覽器的不一樣，可通過識別特徵ua，直接封掉爬蟲請求

2.設定ip訪問頻率，如果超過一定頻率，則封掉爬蟲請求

3.彈出驗證碼：如果輸入正確的驗證碼，則放行，如果沒有輸入，則拉入禁止一段時間，如果超過禁爬時間，再次觸發驗證碼，則拉入黑名單。當然根據具體的業務，為不同場景設定不同閾值，比如登入使用者和非登入使用者，請求是否含有refer

4.通過併發識別爬蟲：有些爬蟲的併發是很高的，統計併發最高的ip，加入黑名單（或者直接封掉爬蟲ip所在c段）

5.請求的時間視窗過濾統計：爬蟲爬取網頁的頻率都是比較固定的，不像人去訪問網頁，中間的間隔時間比較無規則，所以我們可以給每個ip位址建立乙個時間視窗，記錄ip位址最近12次訪問時間，每記錄一次就滑動一次視窗，比較最近訪問時間和當前時間，如果間隔時間很長判斷不是爬蟲，清除時間視窗，如果間隔不長，就回溯計算指定時間段的訪問頻率，如果訪問頻率超過閾值，就轉向驗證碼頁面讓使用者填寫驗證碼

6.限制單個ip/api token的訪問量：比如12分鐘限制訪問頁面180次，具體標準可參考一些大型**的公開api，如twitter api，對於抓取使用者公開資訊的爬蟲要格外敏感

7.蜜罐資源：爬蟲解析離不開正規表示式匹配，適當在頁面新增一些正常瀏覽器瀏覽訪問不到的資源，一旦有ip訪問，這些ip在網上都可以找到。校驗出來ip不在白名單就可以阻止訪問內容

爬蟲基礎概念

爬蟲基礎概念

Python 爬蟲概念基礎

python爬蟲之基礎概念篇

爬蟲基礎概念

爬蟲基礎概念

Python 爬蟲 概念基礎

python爬蟲之基礎概念篇

相關推薦

Python 爬蟲概念基礎