讓Apache拒絕網路流氓蜘蛛

一旦**對外開放，並登陸到搜尋引擎中，網路蜘蛛會定期來光顧採集。當乙個網路蜘蛛(有的叫搜尋機械人)訪問乙個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果存在，搜尋機械人就會按照該檔案中的內容來確定訪問的範圍；如果該檔案不存在，那麼搜尋機械人就沿著鏈結抓取。

目前看來，絕大多數的搜尋引擎機械人都遵守robots.txt的規則。但這是只防君子不防小人，碰到網路壞爬蟲就沒轍了，有些搜尋引擎的 robot 根本不看**的robots.txt，就一路抓下去，實在另人髮指.

目前的網路蜘蛛大致分為4種：

1 真名真姓，遵循robots.txt 協議。

2 真名真姓，不遵循robots.txt協議。

3 匿名，不遵循robots.txt協議。

4 偽裝：不遵循robots.txt協議。

網路壞爬蟲就是這些不遵守遊戲規則，到處亂抓別人**的內容的壞蛋。這樣會造成**執行壓力的增大和流量增加，也就是費用的增加，或是不想被公開的資料也被抓取了,侵犯**的隱私.

例如：qihoobot，也是來自"奇虎網",浪費頻寬

另有 larbin，iearthworm，yodaoice，lanshanbot，outfoxbot 等等.

碰到這種網路壞爬蟲，只能想法阻擋它。apache就可以擋住特定ip，但因為 robots大多有多個ip，過濾爬蟲名字還是比較有效的，可以用browsermatchnocase 來過濾.

用法像是：

order allow,deny

allow from all

browsermatchnocase "iaskspider" badguy

browsermatchnocase "qihoobot" badguy

browsermatchnocase "larbin" badguy

browsermatchnocase "iearthworm" badguy

browsermatchnocase "outfoxbot" badguy

browsermatchnocase "lanshanbot" badguy

browsermatchnocase "arthur" badguy

browsermatchnocase "infopath" badguy

browsermatchnocase "digext" badguy

browsermatchnocase "embedded" badguy

browsermatchnocase "embeddedwb" badguy

browsermatchnocase "wget" badguy

browsermatchnocase "cncdialer" badguy

browsermatchnocase "lwp::******" badguy

browsermatchnocase "wps" badguy

deny from env=badguy

如此，它們就會收到 apache返回的錯誤碼: 403 碼：forbidden

如果還不行就直接遮蔽ip位址段，增加

deny from 221.194.136.*

deny from 220.181.33.*

這兩個ip段都是qihoo的