【必須】匯入nutch專案時其conf檔案下的所有配置檔案需要加入到classpath中
右鍵conf -> build path -> use as source folder
在執行時如發生異常:x point org.apache.nutch.net.urlnormalizer not found.
注:這是配置造成的,是外掛程式目錄的配置沒有正確,修改conf/nutch-default.xml檔案
plugin.folders
./src/plugin
...在執行時如發生異常:fetcher: no agents listed in 'http.agent.name' property.
檢查conf配置目錄中的nutch-default.xml和nutch-site.xml檔案中是否存在鍵:http.agent.name,
或存在鍵:
http.agent.name,但其值為空,一定要定義此鍵值,值可以任意,自已想名字吧。如:
//新增想抓取的url
1、建立待掃瞄的資料夾,然後在其中新建乙個檔案(檔名不限),在該檔案中寫入想抓取的**url,每行乙個,如:
2、conf/crawl-urlfilter.txt
#accept hosts in my.domain.name
+^http://([a-z0-9]*\.)*163.com/ ---寫入想抓取的**正規表示式
然後即可在eclipse中進行除錯或使用nutch進行爬行
進入nutch目錄
$ sh ./bin/nutch crawl urls -dir mydir -depth 2 -threads 4 -topn 50
crawl:通知nutch.jar,執行crawl的main方法。
urls:存放需要爬行的url.txt檔案的目錄
-dir mydir 爬行後檔案儲存的位置
-depth 2:爬行次數,或者成為深度,不過還是覺得次數更貼切,建議測試時改為1。
-threads 指定併發的程序 這是設定為4
-topn 50:乙個**儲存的最大頁面數。
注意爬網的時候mydir目錄不能存在,要不然會出錯
nutch1 9 nutch安裝記錄
nutch 安裝記錄 1.安裝windows下的linux模擬環境cygwin 3.在cygwin中進入nutch解壓縮目錄,使用命令cd cygdrive e nutch1.1 cygdrive是cygwin進入碟符的命令 4.執行bin nutch檢視是否可以成功執行 5.在nutch目錄下建立...
nutch配置成功
nutch配置成功,現在進行關鍵的技術選型。根據專案特殊情況及實現中文搜尋可能存在的問題,提出三套技術方案,除自己外,另安排一人選擇第三套方案進行實施測試,預期一周後進行根據測試情況選擇具體的實施方案。由自己負責第一套方案的測試,目前需進行的工作 1 綜合比較nutch和heritrix,選擇合適的...
如何向nutch索引中新增自己的Field
向nutch中新增自己的field也是比較簡單的,和直接呼叫lucene向索引中新增field基本相同,首先設定新增的field是否要被儲存分詞索引,然後將field新增到nutchdocument中,其他的工作就nutch會自動完成 1 首先要在indexer的index函式配置執行索引工作前設定...