使用 Nginx 過濾網路爬蟲

2021-08-14 19:55:02 字數 585 閱讀 6065

現在有許多初學者學習網路爬蟲,但他們不懂得控制速度,導致伺服器資源浪費。通過 nginx 的簡單配置,能過濾一小部分這類爬蟲。

location / 

# 正常請求

}

這裡只列出了部分爬蟲的 user-agent,需要更多請參考:github - jaybizzle/crawler-detect

注意:user-agent 很容易修改

通過禁止某個 ip 或者某個 ip 段訪問,也能起到一定效果。 nginx 示例配置如下:

deny 178.238.234.1;

deny 1.32.128.0/18;

通過限制某個 ip 的訪問頻率,避免一部分 cc (challenge collapsar)攻擊。

nginx 示例配置如下:

...}當然,攻擊者也可以使用**ip來破除頻率限制。建議在**前面加一層 cdn。

參考:nginx限制某個ip同一時間段的訪問次數

使用Nginx過濾網路爬蟲

現在的網路爬蟲越來越多,有很多爬蟲都是初學者寫的,和搜尋引擎的爬蟲不一樣,他們不懂如何控制速度,結果往往大量消耗伺服器資源,導致頻寬白白浪費了。其實nginx可以非常容易地根據user agent過濾請求,我們只需要在需要url入口位置通過乙個簡單的正規表示式就可以過濾不符合要求的爬蟲請求 loca...

使用Nginx過濾網路爬蟲

現在的網路爬蟲越來越多,有很多爬蟲都是初學者寫的,和搜尋引擎的爬蟲不一樣,他們不懂如何控制速度,結果往往大量消耗伺服器資源,導致頻寬白白浪費了。其實nginx可以非常容易地根據user agent過濾請求,我們只需要在需要url入口位置通過乙個簡單的正規表示式就可以過濾不符合要求的爬蟲請求 loca...

使用charles過濾網路請求

1.對網路請求進行過濾,只監控向指定目錄伺服器上傳送的請求 有以下方法 1 在structure檢視或者sequence檢視的filter 欄中填入需要過濾出來的關鍵字 適合臨時性封包過濾 或者 2 在 charles 的選單欄選擇 proxy recording settings 然後選擇 inc...