一旦**對外開放,並登陸到搜尋引擎中,網路蜘蛛會定期來光顧採集。 當乙個網路蜘蛛(有的叫搜尋機械人)訪問乙個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜尋機械人就會按照該檔案中的內容來確定訪問的範圍;如果該檔案不存在,那麼搜尋機械人就沿著鏈結抓取。
目前看來,絕大多數的搜尋引擎機械人都遵守robots.txt的規則。但這是只防君子不防小人,碰到網路壞爬蟲就沒轍了,有些搜尋引擎的 robot 根本不看**的robots.txt,就一路抓下去,實在另人髮指.
目前的網路蜘蛛大致分為4種:
1 真名真姓,遵循robots.txt 協議。
2 真名真姓,不遵循robots.txt協議。
3 匿名,不遵循robots.txt協議。
4 偽裝:不遵循robots.txt協議。
網路壞爬蟲就是這些不遵守遊戲規則,到處亂抓別人**的內容的壞蛋。這樣會造成**執行壓力的增大和流量增加,也就是費用的增加,或是不想被公開的資料也被抓取了,侵犯**的隱私.
例如:qihoobot,也是來自"奇虎網",浪費頻寬
另有 larbin,iearthworm,yodaoice,lanshanbot,outfoxbot 等等.
碰到這種網路壞爬蟲,只能想法阻擋它。apache就可以擋住特定ip,但因為 robots大多有多個ip,過濾爬蟲名字還是比較有效的,可以用browsermatchnocase 來過濾.
用法像是:
order allow,deny
allow from all
browsermatchnocase "iaskspider" badguy
browsermatchnocase "qihoobot" badguy
browsermatchnocase "larbin" badguy
browsermatchnocase "iearthworm" badguy
browsermatchnocase "outfoxbot" badguy
browsermatchnocase "lanshanbot" badguy
browsermatchnocase "arthur" badguy
browsermatchnocase "infopath" badguy
browsermatchnocase "digext" badguy
browsermatchnocase "embedded" badguy
browsermatchnocase "embeddedwb" badguy
browsermatchnocase "wget" badguy
browsermatchnocase "cncdialer" badguy
browsermatchnocase "lwp::******" badguy
browsermatchnocase "wps" badguy
deny from env=badguy
如此,它們就會收到 apache返回的錯誤碼: 403 碼:forbidden
如果還不行就直接遮蔽ip位址段,增加
deny from 221.194.136.*
deny from 220.181.33.*
這兩個ip段都是qihoo的
愛讓他們拒絕我回家
母親現在每天大部分時間都在臥床休息,身體瘦得只剩皮包骨頭了。病魔讓母親變得異常脆弱,同時也讓母親不停地承受疼痛。父親也非常辛苦,每天不分晝夜地照顧著母親。聽姐姐說,父親也瘦了很多。我非常難過,很想辭了這份雞肋的工作回去照顧他們,可是父親仍然不讓我回去。父親和母親還是怕影響了我的工作我的發展。可能就象...
網路流 費用流
這個好像不考 沒事可以騙分 費用流,顧名思義,就是有費用的流,也就是說,給乙個網路流圖中的每條弧增加乙個單位流量費用。一般來說求解的費用流都是最大流最小費用。好像沒什麼好bb的 這裡推薦使用zkw演算法求解最小費用流,看著 理解就行,應該還是很好理解的。zkw演算法在稠密圖上跑得飛快,在稀疏圖上還不...
網路流 費用流
網路流有很多種類 其中最大流 有增廣路演算法和預流推進演算法。增廣路演算法就是不斷的新增增廣路。其中的dinic演算法。會稍微提到isap演算法 poj1273 首先想到dfs一直往後延伸,然後從源點到匯點計算每條路,但是這樣只是單條路的最值,有時可能因為走一條路而間接的認定了除這條路以外的某個路通...