crawlstatus:
status_unfetched =
0x01; //page was not fetched yet
status_fetched =
0x02; //page was successfully fetched
status_gone =
0x03; //page no longer exists
status_redir_temp =
0x04; //page temporarily redirects to other page
status_redir_perm =
0x05; //page permanently redirects to other page
status_retry =
0x22; //fetching unsuccessful, needs to be retried (transient errors)
status_notmodified =
0x26; //fetching successful - page is not modified
injectorjob
**_injmrk_ :'y'
** distance:0
generatorjob
生成batchid
判斷distance> maxdistance return
_gnmrk_ 有值return
**fetchtime 太近return
** count >= limit return
計算url的score
**_gnmrk_ = batchid**
page.batchid = batchid
fetcherjob
_gnmrk_ 無值return
_ftcmrk_ 有值return
**batchid.
equals(_gnmrk_) 則fetch**
**_ftcmrk_ = _gnmrk_ **
parsejob
**batchid.
equals(_ftcmrk_) 則parse**
batchid.
equals("-reparse") 或 force 強制parse
_ftcmrk_ 無值return
__prsmrk__ 有值return
skiptruncated return
status 不等status_fetched return
parse:setsignature setoutlinks
__prsmrk__ = _ftcmrk_
dbupdaterjob
**batchid.
equals(_gnmrk_) 則update**
*outlinks插入資料庫
*更新score
*判斷signature的變動
*更新fetchtime,modifiedtime
*計算newdistance
*刪除_ftcmrk_ / _gnmrk_
*如果 __prsmrk__ 存在:_updmrk_ = __prsmrk__ ; __prsmrk__=
null
indexingjob
**batchid.
equals(_updmrk_) 則 indexing**
if (pstatus ==
null
||!parsestatusutils.issuccess(pstatus)) return
indexing
_idxmrk_ = _updmrk_
nutch1 9 nutch安裝記錄
nutch 安裝記錄 1.安裝windows下的linux模擬環境cygwin 3.在cygwin中進入nutch解壓縮目錄,使用命令cd cygdrive e nutch1.1 cygdrive是cygwin進入碟符的命令 4.執行bin nutch檢視是否可以成功執行 5.在nutch目錄下建立...
如何除錯nutch
必須 匯入nutch專案時其conf檔案下的所有配置檔案需要加入到classpath中 右鍵conf build path use as source folder 在執行時如發生異常 x point org.apache.nutch.net.urlnormalizer not found.注 這是...
nutch配置成功
nutch配置成功,現在進行關鍵的技術選型。根據專案特殊情況及實現中文搜尋可能存在的問題,提出三套技術方案,除自己外,另安排一人選擇第三套方案進行實施測試,預期一周後進行根據測試情況選擇具體的實施方案。由自己負責第一套方案的測試,目前需進行的工作 1 綜合比較nutch和heritrix,選擇合適的...