總體來說
heritrix
網路蜘蛛的功能更為強大,
nutch
更好地支援搜尋引擎(與
lucene
緊密結合)。兩者特點對比如下:
nutch
是乙個搜尋引擎框架,而
heritrix
nutch
heritrix
則可以適用各種型別資訊,嚴格保持網頁原貌。
nutch
的更新策略是直接替換原來的舊網頁,為索引作好準備;而
heritrix
都以任務形式管理,
nutch
只支援命令列,
heritrix
還支援web
控制介面。
nutch
heritrix
更加靈活。
heritrix 是個 "archival crawler" -- 用來獲取完整的、精確的、站點內容的深度複製。包括獲取影象以及其他非文字內容。抓取並儲存相關的內容。對內容來者不拒,不對頁面進行內容上的修改。重新爬行對相同的url不針對先前的進行替換。爬蟲通過web使用者介面啟動、監控、調整,允許彈性的定義要獲取的url。
heritrix
中有幾個關鍵模組這裡介紹一下:
crawlcontroller
frontier
中位址列表傳遞給執行緒池中的
toethreads
邊界控制器
frontier
。用來確定下乙個將抓取的網頁。實現對**訪問的均衡處理,避免多執行緒同時訪問同乙個**造成**壓力。
frontier
內至少包含最新發現的
url、正在處理的
urlurl
。伺服器快取
servercache
。實現搜尋引擎中的
dns快取。
servercache
中存放伺服器的持久資訊,包括
ip
nutch和lucene的區別
想做乙個搜尋引擎,最近瀏覽了許多社群,發現lucene和nutch用的很多,而這兩個我總感覺難以區分概念,於是在查了些資料。下面是lucene和nutch創始人doug cutting 的訪談摘錄 lucene其實是乙個提供全文文字搜尋的函式庫,它不是乙個應用軟體。它提供很多api函式讓你可以運用到...
Nutch和Lucene的區別
想做乙個搜尋引擎,最近瀏覽了許多社群,發現lucene和nutch用的很多,而這兩個我總感覺難以區分概念,於是在查了些資料。下面是lucene和nutch創始人doug cutting 的訪談摘錄 lucene其實是乙個提供全文文字搜尋的函式庫,它不是乙個應用軟體。它提供很多api函式讓你可以運用到...
Heritrix的主要模組
1 frontier 鏈結工廠 是heritrix最核心的部分,有三個核心的方法 next,schedule,finished,其原型及作用如下 a 程提供乙個鏈結.heritrix的所有處理執行緒 toethread 都是通過呼叫該方法獲取鏈結的 b schedule candidateuri c...