對於資訊發布平台,最重要的資產就是資訊,如果資訊資料被爬蟲搞完了那將損失慘重,所以介面要做好反爬措施。
user-agent
bytespider
簡易過濾,表明態度。
限制ip訪問頻率
這種方式ip不能永久封禁,只能封禁一段時間。
可通過購買動態ip服務或者**ip池來破解。
透明**-無效,普匿**-無效,高匿**-有效
介面簽名
介面引數增加乙個sign欄位,客戶端在js檔案中儲存key,然後將演算法設計的繁瑣一些,每次動態生成sign,雖然會被破解但是還是有一定的作用。
介面加密
資訊過濾
確保不暴露使用者密碼手機號身份證等本不需要展示的資訊。
驗證碼建立危險使用者行為模型,在危險行為被識別出來後,增強驗證級別。如在簡訊驗證碼頻繁調取時強制要求補充驗證圖形驗證碼;或者使用者提交一些非法引數時增加行為驗證。
接入打碼api破解,例如雲打碼。
要求登入
設定賬號登陸時長,過期重新登入。
模擬登入;多申請幾個號。
動態頁面
聯合作用
上面的這些方面可以聯合作用,比如,介面簽名沒通過基本可以確定是爬蟲,如果發現是爬蟲的話直接將ip加入黑名單永不解凍。
python爬蟲常見反爬措施
1.ip封鎖 常見 反爬蟲首先考慮到會不會對使用者產生誤傷,舉個例子,在校園網內,有台機器對 持續高頻繁產生請求,校園網涉及使用者過多,但是如果封鎖ip那麼會對校園中的使用者產生誤傷,喪失了許多使用者量,就拿某寶那麼大的公司來說,不到萬不得已時,不會對ip進行長時間或者進行封鎖。解決方案 1.採用修...
Django專案學習 反爬措施
在設定中新增個ip pool,實則是個字典,記錄登入的ip 設定黑名單功能 請求過於頻繁,請於五分鐘之後再嘗試!else return func blank,request return inner 反爬蟲工具裝飾器 defdefined spider func def inner blank,re...
python爬京東 反爬 爬蟲怎麼測試反爬?
有沒有反爬,如果你沒有用爬蟲抓取過,你是不可能知道的。就算要測試,你還要嘗試不同的delay。如果設定的 delay 在 的反爬頻率外,那就測不出來。如果在頻率內,那就被封。或者封ip,或者封賬號。如果一定要測出來,就簡單粗暴的方法,你不要設定delay,就不間斷的抓,最後出現兩種情況,1 有反爬,...