heritrix通過三個引數來控制爬蟲抓取的速度,位於每個job的setting處,如圖:
舉例來說,如果將delay-factor設定為4,前一次抓取花費了500ms的時間,那麼要間隔 500ms * 4 = 2s的時間才進行下一次的抓取;
這個引數的好處在於它可以動態的控制抓取的速度,如果**繁忙,那麼自然每次抓取的時間相對較長,則我們兩次抓取之間的間隔時間也變長。這樣不會影響到被抓取**的效能。
max-delay-ms 和 min-delay-ms則是抓取間隔的下限和上限。
min-delay-ms設定為2000ms,表示無論抓取的時間有多快(假設幾ms就能夠完成抓取),也無論delay-factor設定得多小,那麼至少兩次抓取之間的間隔要有2000ms;
max-delay-ms同理。
通過這三個引數,我覺著已經能夠很好的控制爬蟲的抓取速度了。
其實,乙個爬蟲速度的基本原則就是不影響被抓取**的效能。否則就可能被目標**封了,損人不利己。
Heritrix控制抓取速度
heritrix通過三個引數來控制爬蟲抓取的速度,位於每個job的setting處,如圖 舉例來說,如果將delay factor設定為4,前一次抓取花費了500ms的時間,那麼要間隔 500ms 4 2s的時間才進行下一次的抓取 這個引數的好處在於它可以動態的控制抓取的速度,如果 繁忙,那麼自然每...
Heritrix個性化設定抓取目標
本文是heritrix的使用的高階篇,針對對heritrix已經能夠執行的碼農朋友們!那麼如何才能做到只抓取html網頁呢?這裡暫且不討論抓取抓取指定網域名稱的html網頁,在之後的文章中可能會列出來!由於我們只對html檔案中的鏈結感興趣,所以去除了以下三個extractor。extractorc...
PID控制器的應用 控制網路爬蟲抓取速度
冬天鄉下人喜歡烤火取暖,常見的情形就是四人圍著麻將桌,桌底放一盆碳火。有人覺得火不夠大,那加點木炭吧,還不夠,再加點。片刻之後,又覺得火太大,腳都快被烤熟了,那就取出一些木碳 直到火盆裡的火剛剛合適。這樣乙個看似簡單的情形中就包括pid控制系統的四個主要過程 設定目標,測量,比較和執行。結合pid控...