如何除錯nutch

【必須】匯入nutch專案時其conf檔案下的所有配置檔案需要加入到classpath中

右鍵conf -> build path -> use as source folder

在執行時如發生異常：x point org.apache.nutch.net.urlnormalizer not found.

注：這是配置造成的，是外掛程式目錄的配置沒有正確，修改conf/nutch-default.xml檔案

plugin.folders

./src/plugin

...在執行時如發生異常：fetcher: no agents listed in 'http.agent.name' property.

檢查conf配置目錄中的nutch-default.xml和nutch-site.xml檔案中是否存在鍵：http.agent.name，

或存在鍵：

http.agent.name，但其值為空，一定要定義此鍵值，值可以任意,自已想名字吧。如：

//新增想抓取的url

1、建立待掃瞄的資料夾，然後在其中新建乙個檔案(檔名不限)，在該檔案中寫入想抓取的**url，每行乙個，如：

2、conf/crawl-urlfilter.txt

#accept hosts in my.domain.name

+^http://([a-z0-9]*\.)*163.com/ ---寫入想抓取的**正規表示式

然後即可在eclipse中進行除錯或使用nutch進行爬行

進入nutch目錄

$ sh ./bin/nutch crawl urls -dir mydir -depth 2 -threads 4 -topn 50

crawl：通知nutch.jar，執行crawl的main方法。

urls：存放需要爬行的url.txt檔案的目錄

-dir mydir 爬行後檔案儲存的位置

-depth 2：爬行次數，或者成為深度，不過還是覺得次數更貼切，建議測試時改為1。

-threads 指定併發的程序這是設定為4

-topn 50：乙個**儲存的最大頁面數。

注意爬網的時候mydir目錄不能存在，要不然會出錯

nutch1 9 nutch安裝記錄

nutch 安裝記錄 1.安裝windows下的linux模擬環境cygwin 3.在cygwin中進入nutch解壓縮目錄，使用命令cd cygdrive e nutch1.1 cygdrive是cygwin進入碟符的命令 4.執行bin nutch檢視是否可以成功執行 5.在nutch目錄下建立...

nutch配置成功

nutch配置成功，現在進行關鍵的技術選型。根據專案特殊情況及實現中文搜尋可能存在的問題，提出三套技術方案，除自己外，另安排一人選擇第三套方案進行實施測試，預期一周後進行根據測試情況選擇具體的實施方案。由自己負責第一套方案的測試，目前需進行的工作 1 綜合比較nutch和heritrix，選擇合適的...

如何向nutch索引中新增自己的Field

向nutch中新增自己的field也是比較簡單的，和直接呼叫lucene向索引中新增field基本相同，首先設定新增的field是否要被儲存分詞索引，然後將field新增到nutchdocument中，其他的工作就nutch會自動完成 1 首先要在indexer的index函式配置執行索引工作前設定...

如何除錯nutch

nutch1 9 nutch安裝記錄

nutch配置成功

如何向nutch索引中新增自己的Field

相關推薦