nutch1 9 nutch安裝記錄

nutch 安裝記錄

1.安裝windows下的linux模擬環境cygwin

3.在cygwin中進入nutch解壓縮目錄，使用命令cd /cygdrive/e/nutch1.1 （cygdrive是cygwin進入碟符的命令）

4.執行bin/nutch檢視是否可以成功執行

5.在nutch目錄下建立urls/seeds.txt檔案，存放種子url

6.在conf/regex-urlfilter.txt配置過濾url

+ 表示按照此規則抓取頁面

- 表示按照此規則去除頁面

7.相關配置在nutch-site.xml中，nutch-site.xml的節點會覆蓋nutch-default.xml中的節點

8.需要的配置節點名：

fetcher.maxnum.threads 配置最大執行緒數

fetcher.queue.depth.multiplier 深度乘數佇列的深度是執行緒的數目乘以該引數的值

http.proxy.host 配置**伺服器 host port username password

parser.skip.truncated 配置是否分段返回

parser.character.encoding.default 配置字符集編碼

9.啟動爬取 ./bin/crawl ./urls/seed.txt ./testcrawl 5

命令種子資料夾存放目錄遍歷輪數

10.抓取結束後會生成三個資料夾 crawldb linkdb segments

crawldb linkdb 儲存當前抓取的鏈結和待抓取的鏈結。

segments存放抓取的結果，按日期定義資料夾

–注意：新的抓取需要使用新的資料夾，否則crawldb linkdb會影響抓取

11.注意，發布版需要用hadoop1.2.1的jar包替換掉hadoop1.2.0的jar包，否則無法抓取

12.統計命令

bin/nutch readseg -list -dir testcrawl/segments/ 資料統計

bin/nutch readdb testcrawl3/crawldb/ -dump crawldb3 檢視抓取的url

bin/nutch readseg -dump testcrawl6/segments/20150819140107 segdb6 匯出抓取的檔案

如何除錯nutch

必須匯入nutch專案時其conf檔案下的所有配置檔案需要加入到classpath中右鍵conf build path use as source folder 在執行時如發生異常 x point org.apache.nutch.net.urlnormalizer not found.注這是...

nutch配置成功

nutch配置成功，現在進行關鍵的技術選型。根據專案特殊情況及實現中文搜尋可能存在的問題，提出三套技術方案，除自己外，另安排一人選擇第三套方案進行實施測試，預期一周後進行根據測試情況選擇具體的實施方案。由自己負責第一套方案的測試，目前需進行的工作 1 綜合比較nutch和heritrix，選擇合適的...

修改nutch分頁功能

css自己調，簡要說明下修改過程 1 去掉showallhits功能，可以全部注釋掉，或者直接乾掉 if hits.totali act hits.getlength start hitsperpage long totalpage hits.gettotal hitsperpage 0?hits....

nutch1 9 nutch安裝記錄

如何除錯nutch

nutch配置成功

修改nutch分頁功能

相關推薦