nutch 安裝記錄
1.安裝windows下的linux模擬環境cygwin
3.在cygwin中進入nutch解壓縮目錄,使用命令cd /cygdrive/e/nutch1.1 (cygdrive是cygwin進入碟符的命令)
4.執行bin/nutch檢視是否可以成功執行
5.在nutch目錄下建立urls/seeds.txt檔案,存放種子url
6.在conf/regex-urlfilter.txt配置過濾url
+ 表示按照此規則抓取頁面
- 表示按照此規則去除頁面
7.相關配置在nutch-site.xml中,nutch-site.xml的節點會覆蓋nutch-default.xml中的節點
8.需要的配置節點名:
fetcher.maxnum.threads 配置最大執行緒數
fetcher.queue.depth.multiplier 深度乘數 佇列的深度是執行緒的數目乘以該引數的值
http.proxy.host 配置**伺服器 host port username password
parser.skip.truncated 配置是否分段返回
parser.character.encoding.default 配置字符集編碼
9.啟動爬取 ./bin/crawl ./urls/seed.txt ./testcrawl 5
命令 種子資料夾 存放目錄 遍歷輪數
10.抓取結束後會生成三個資料夾 crawldb linkdb segments
crawldb linkdb 儲存當前抓取的鏈結和待抓取的鏈結。
segments存放抓取的結果,按日期定義資料夾
–注意:新的抓取需要使用新的資料夾,否則crawldb linkdb會影響抓取
11.注意,發布版需要用hadoop1.2.1的jar包替換掉hadoop1.2.0的jar包,否則無法抓取
12.統計命令
bin/nutch readseg -list -dir testcrawl/segments/ 資料統計
bin/nutch readdb testcrawl3/crawldb/ -dump crawldb3 檢視抓取的url
bin/nutch readseg -dump testcrawl6/segments/20150819140107 segdb6 匯出抓取的檔案
如何除錯nutch
必須 匯入nutch專案時其conf檔案下的所有配置檔案需要加入到classpath中 右鍵conf build path use as source folder 在執行時如發生異常 x point org.apache.nutch.net.urlnormalizer not found.注 這是...
nutch配置成功
nutch配置成功,現在進行關鍵的技術選型。根據專案特殊情況及實現中文搜尋可能存在的問題,提出三套技術方案,除自己外,另安排一人選擇第三套方案進行實施測試,預期一周後進行根據測試情況選擇具體的實施方案。由自己負責第一套方案的測試,目前需進行的工作 1 綜合比較nutch和heritrix,選擇合適的...
修改nutch分頁功能
css自己調,簡要說明下修改過程 1 去掉showallhits功能,可以全部注釋掉,或者直接乾掉 if hits.totali act hits.getlength start hitsperpage long totalpage hits.gettotal hitsperpage 0?hits....