平衡禮貌策略
就像koster(koster,1995)所注意的那樣,爬蟲的使用對很多任務作都是很有用的,但是對一般的社群,也需要付出代價。使用爬蟲的代價包括:
網路資源:在很長一段時間,爬蟲使用相當的頻寬高度並行地工作。
伺服器超載:尤其是對給定伺服器的訪問過高時。
個人爬蟲,如果過多的人使用,可能導致網路或者伺服器阻塞。
對這些問題的乙個部分解決方法是漫遊器排除協議(robots exclusion protocol),也被稱為robots.txt議定書(koster,1996),這份協議對於管理員指明網路伺服器的那一部分不能到達是乙個標準。這個標準沒有包括重新訪問一台伺服器的間隔的建議,雖然訪問間隔是避免伺服器超載的最有效的辦法。最近的商業搜尋軟體,如ask jeeves,msn和yahoo可以在robots.txt中使用乙個額外的 「crawl-delay」引數來指明請求之間的延遲。
對於那些使用爬蟲用於研究目的的,乙個更詳細的成本-效益分析是必要的,當決定去哪乙個站點抓取,使用多快的速度抓取的時候,倫理的因素也需要考慮進來。
訪問記錄顯示已知爬蟲的訪問間隔從20秒鐘到3-4分鐘不等。需要注意的是即使很禮貌,採取了所有的安全措施來避免伺服器超載,還是會引來一些網路伺服器管理員的抱怨的。brin和page注意到:執行乙個針對超過50萬伺服器的爬蟲,會產生很多的郵件和**。這是因為有無數的人在上網,而這些人不知道爬蟲是什麼,因為這是他們第一次見到。(brin和page,1998)
並行策略
網頁爬蟲的高層體系結構
乙個爬蟲不能像上面所說的,僅僅只有乙個好的抓取策略,還需要有乙個高度優化的結構。
網路爬蟲是搜尋引擎的核心,他們演算法和結構上的細節被當作商業機密。當爬蟲的設計發布時,總會有一些為了阻止別人複製工作而缺失的細節。人們也開始關注主要用於阻止主要搜尋引擎發布他們的排序演算法的「搜尋引擎垃圾郵件」。
不會還有人不知道這款神器吧?不會吧不會吧?
nmap是一款網路掃瞄和主機檢測的非常有用的工具。nmap是不侷限於僅僅收集資訊和列舉,同時可以用來作為乙個漏洞探測器或安全掃瞄器。它可以適用於winodws,linux,mac等作業系統。nmap是一款非常強大的實用工具,可用於 檢測活在網路上的主機 主機發現 檢測主機上開放的埠 埠發現或列舉 檢...
不會吧不會吧!你還認為v if和v show一樣?
v if和v show都能使元素隱藏,那麼到底有什麼區別呢?a class if div a class show div div 我們先設定兩個div,給他們分別設定v if和v show,在vue中將a設為true 當a為true時,從頁面中便可以看出兩個div都存在,當我把它們都設定為fals...
不會吧,這也行?iOS後台鎖屏監聽搖一搖
目錄後台定位許可權 系統搖一搖,是否可行?文章小結 參考文章 demo 鏈結 玩歸玩,鬧歸鬧,開始 code,不開玩笑。接下來,開始自己的探索之旅。系統搖一搖 方法 void motionbegan uieventsubtype motion withevent uievent event好,我們先...