nutch2 3 1爬取marker流程

2021-07-24 11:00:54 字數 1880 閱讀 1901

crawlstatus:

status_unfetched =

0x01; //page was not fetched yet

status_fetched =

0x02; //page was successfully fetched

status_gone =

0x03; //page no longer exists

status_redir_temp =

0x04; //page temporarily redirects to other page

status_redir_perm =

0x05; //page permanently redirects to other page

status_retry =

0x22; //fetching unsuccessful, needs to be retried (transient errors)

status_notmodified =

0x26; //fetching successful - page is not modified

injectorjob

**_injmrk_ :'y'

** distance:0

generatorjob

生成batchid

判斷distance> maxdistance return

_gnmrk_ 有值return

**fetchtime 太近return

** count >= limit return

計算url的score

**_gnmrk_ = batchid**

page.batchid = batchid

fetcherjob

_gnmrk_ 無值return

_ftcmrk_ 有值return

**batchid.

equals(_gnmrk_) 則fetch**

**_ftcmrk_ = _gnmrk_ **

parsejob

**batchid.

equals(_ftcmrk_) 則parse**

batchid.

equals("-reparse") 或 force 強制parse

_ftcmrk_ 無值return

__prsmrk__ 有值return

skiptruncated return

status 不等status_fetched return

parse:setsignature setoutlinks

__prsmrk__ = _ftcmrk_

dbupdaterjob

**batchid.

equals(_gnmrk_) 則update**

*outlinks插入資料庫

*更新score

*判斷signature的變動

*更新fetchtime,modifiedtime

*計算newdistance

*刪除_ftcmrk_ / _gnmrk_

*如果 __prsmrk__ 存在:_updmrk_ = __prsmrk__ ; __prsmrk__=

null

indexingjob

**batchid.

equals(_updmrk_) 則 indexing**

if (pstatus ==

null

||!parsestatusutils.issuccess(pstatus)) return

indexing

_idxmrk_ = _updmrk_

nutch1 9 nutch安裝記錄

nutch 安裝記錄 1.安裝windows下的linux模擬環境cygwin 3.在cygwin中進入nutch解壓縮目錄,使用命令cd cygdrive e nutch1.1 cygdrive是cygwin進入碟符的命令 4.執行bin nutch檢視是否可以成功執行 5.在nutch目錄下建立...

如何除錯nutch

必須 匯入nutch專案時其conf檔案下的所有配置檔案需要加入到classpath中 右鍵conf build path use as source folder 在執行時如發生異常 x point org.apache.nutch.net.urlnormalizer not found.注 這是...

nutch配置成功

nutch配置成功,現在進行關鍵的技術選型。根據專案特殊情況及實現中文搜尋可能存在的問題,提出三套技術方案,除自己外,另安排一人選擇第三套方案進行實施測試,預期一周後進行根據測試情況選擇具體的實施方案。由自己負責第一套方案的測試,目前需進行的工作 1 綜合比較nutch和heritrix,選擇合適的...