nutch1 9 nutch安裝記錄

2021-07-06 07:09:04 字數 1173 閱讀 1639

nutch 安裝記錄

1.安裝windows下的linux模擬環境cygwin

3.在cygwin中進入nutch解壓縮目錄,使用命令cd /cygdrive/e/nutch1.1 (cygdrive是cygwin進入碟符的命令)

4.執行bin/nutch檢視是否可以成功執行

5.在nutch目錄下建立urls/seeds.txt檔案,存放種子url

6.在conf/regex-urlfilter.txt配置過濾url

+ 表示按照此規則抓取頁面

- 表示按照此規則去除頁面

7.相關配置在nutch-site.xml中,nutch-site.xml的節點會覆蓋nutch-default.xml中的節點

8.需要的配置節點名:

fetcher.maxnum.threads 配置最大執行緒數

fetcher.queue.depth.multiplier 深度乘數 佇列的深度是執行緒的數目乘以該引數的值

http.proxy.host 配置**伺服器 host port username password

parser.skip.truncated 配置是否分段返回

parser.character.encoding.default 配置字符集編碼

9.啟動爬取 ./bin/crawl ./urls/seed.txt ./testcrawl 5

命令 種子資料夾 存放目錄 遍歷輪數

10.抓取結束後會生成三個資料夾 crawldb linkdb segments

crawldb linkdb 儲存當前抓取的鏈結和待抓取的鏈結。

segments存放抓取的結果,按日期定義資料夾

–注意:新的抓取需要使用新的資料夾,否則crawldb linkdb會影響抓取

11.注意,發布版需要用hadoop1.2.1的jar包替換掉hadoop1.2.0的jar包,否則無法抓取

12.統計命令

bin/nutch readseg -list -dir testcrawl/segments/ 資料統計

bin/nutch readdb testcrawl3/crawldb/ -dump crawldb3 檢視抓取的url

bin/nutch readseg -dump testcrawl6/segments/20150819140107 segdb6 匯出抓取的檔案

如何除錯nutch

必須 匯入nutch專案時其conf檔案下的所有配置檔案需要加入到classpath中 右鍵conf build path use as source folder 在執行時如發生異常 x point org.apache.nutch.net.urlnormalizer not found.注 這是...

nutch配置成功

nutch配置成功,現在進行關鍵的技術選型。根據專案特殊情況及實現中文搜尋可能存在的問題,提出三套技術方案,除自己外,另安排一人選擇第三套方案進行實施測試,預期一周後進行根據測試情況選擇具體的實施方案。由自己負責第一套方案的測試,目前需進行的工作 1 綜合比較nutch和heritrix,選擇合適的...

修改nutch分頁功能

css自己調,簡要說明下修改過程 1 去掉showallhits功能,可以全部注釋掉,或者直接乾掉 if hits.totali act hits.getlength start hitsperpage long totalpage hits.gettotal hitsperpage 0?hits....