1.為處理方便,直接在$nutch目錄下建立乙個名為url.txt檔案,然後在檔案裡新增要搜尋的**,例如:注意**最後的"/"一定要有。前面的"http://"也是必不可少的。
2.配置crawl-urlfilter.txt
開啟$nutch/conf/crawl-urlfilter.txt,找到這兩行
紅色部分是乙個正則,改寫為如下形式
3.修改$nutch\conf\nutch-site.xml為如下內容,否則不會抓取。
執行crawl抓取網頁
1.首先在nutch-0.9根目錄下建乙個logs資料夾,在該資料夾下建乙個logs1.txt檔案。
2.在cygwin2控制台下轉到nutch目錄下,例如nutch安裝在f:\nutch-0.9下,則輸入如下命令: cd f:\nutch-0.9.
執行如下命令,開始抓取指定網頁中的內容。其中斜體的部分需要注意。
bin/nutch crawl url.txt
-dir mydir
-depth 2
-threads
4其中:
-url.txt
就是剛才我們建立的url.txt檔案,檔案中存放我們要抓取的**;
-dir
指定抓取內容所存放的目錄,如上存在mydir中;
-threads
指定併發的執行緒數;
-depth 指定從根url起將要爬行的深度;
通常抓取的時間會有5-10分鐘。抓取後,在nutch目錄下生成乙個mydir
資料夾。
每次抓取時,會檢查$nutch是否存在與mydir
相同的資料夾名,如果存在,會丟擲異常。
抓取結束後會在mydir
目錄下生成如下結構的目錄。
同時在&nutch下會生成logs目錄,在此目錄下會生成乙個hadoop.log的日誌檔案。包括抓取網頁的過程描述。
5.搜尋抓取檔案的設定
改為searcher.dir
d:\\nutch-0.9\\mydir
value屬性的值為從**抓取的檔案存放的路徑,也就是上文中mydir
的完整路徑。
6.搜尋亂碼的解決
如結果出現亂碼將tomcat\conf下的server.xml中的connector部分改成如下形式:(紅色部分為新增的)
uriencoding="utf-8" usebodyencodingforuri="true"
/>
nutch配置成功
nutch配置成功,現在進行關鍵的技術選型。根據專案特殊情況及實現中文搜尋可能存在的問題,提出三套技術方案,除自己外,另安排一人選擇第三套方案進行實施測試,預期一周後進行根據測試情況選擇具體的實施方案。由自己負責第一套方案的測試,目前需進行的工作 1 綜合比較nutch和heritrix,選擇合適的...
Linux下配置單機nutch1 2
1.準備 apache nutch 1.2 bin.tar.gz apache tomcat 7.0.22.tar.gz 2.步驟 1 解壓tar xzvf apache nutch 1.2 bin.tar.gz到指定目錄,本文為 home ncut 目錄下 原來 http a z0 9 my.do...
Nutch 配置 可恥的失敗
滿以為萬事大吉了,誰想到乙個配置錯誤讓我木鑾了2 3個小時,當我配置好各種引數進行索引的時候,發現索引速度非常快,不到1分鐘就索引完畢了,不對啦,速度也不能這樣快啊,我們整個網路再說也有好幾百兆的東西,下來一看索引大小總共才3k多,我哭,怎麼回事,反正今天上午沒搞定,還延長了半個小時時間,後來回去,...