發現和攔截惡意爬蟲

網際網路爬蟲的種類眾多，本文主要介紹了nginx**如何發現惡意爬蟲和攔截惡意爬蟲。

發現問題

某日，收到a伺服器所有**開啟緩慢的反饋，首先登陸到a伺服器，檢視nginx、php和mysql都正常執行，通過top命令檢視發現伺服器cpu、記憶體、系統負載均正常，通過雲監控進行檢視發現外網網絡卡出流量和資料報傳送量很大

通過命令sar –n dev 1 4進行核實後確實是外網網絡卡網路存在問題。

通過命令iftop -i eth1 –p對外網網絡卡流量情況進行分析排查發現http服務的tcp80埠占用了13+m/s的出流量。

接下來排查nginx站點日誌發現***xx.com.log站點的日誌存在日誌量較大超過3g,開啟日誌發現大量的user-agent為baiduspider 的訪問，如下圖

攔截惡意爬蟲在站點配置檔案***xx.com.conf中加入以下**阻止user-agent帶有baiduspider的訪問，返回結果指定為403。

此**會遮蔽所有的爬蟲，所以對搜尋排名有要求的話建議不用使用此方法。重新載入***xx.com.conf後觀察流量情況發現流量恢復正常。**訪問恢復正常。

賽門鐵克發現首個惡意威脅64位Windows病毒

w64.rugrat.3344。這種無危險病毒不會廣泛擴散然而，它是已知的第乙個成功攻擊64位windows可執行程式的威脅。此威脅不會影響32位可執行程式，也不會在32位windows平台上執行。它針對的只是64位windows作業系統。w64.rugrat.3344具有如下特徵此威脅直接影響...

關聯規則發現和新詞發現

關聯規則發現常常用在購物籃分析中。假設a和b同時被買的頻率很高支援度買a的人同時買b的可能性也很高置信度則可以形成一條規則 a b。表示買a的人也會買b。對於自然語言處理來說，分詞非常關鍵，而分詞都要依賴詞庫。新詞每天都在產生，如果詞庫中不包含某乙個新詞，則這個詞就不會被分出來，所以自動發現...

Python 爬蟲盡量不被發現策略

所以要準備一堆可用的 ip，如果公司有額外的比較閒的ip最好了，閒著也是閒著，在不影響正常業務的提前下，多換ip。否則就要想辦法獲取免費當然需要先pip安裝。其實我也推薦大家偽裝成各大搜尋的ua，比如googleua 有這樣一些google抓取工具說到這裡，有的你新增referfer欄位是搜...

發現和攔截惡意爬蟲

賽門鐵克發現首個惡意威脅64位Windows病毒

關聯規則發現和新詞發現

Python 爬蟲盡量不被發現策略

相關推薦