Nutch 配置可恥的失敗

滿以為萬事大吉了，誰想到乙個配置錯誤讓我木鑾了2-3個小時，當我配置好各種引數進行索引的時候，發現索引速度非常快，不到1分鐘就索引完畢了，不對啦，速度也不能這樣快啊，我們整個網路再說也有好幾百兆的東西，下來一看索引大小總共才3k多，我哭，怎麼回事，反正今天上午沒搞定，還延長了半個小時時間，後來回去，一下嘍，突然想起，對了，**原來給弄了個保密的登陸【這是**的保密員想起來的，說什麼公司內網訪問要輸入密碼才可以】，後來想了一下，如果抓去url設定成會被定向到乙個登陸頁面，明白了，所以索引就結束的快，再者，nutch預設好像不會抓去url帶引數這種比如如果含有 "?" 這種字元會被過濾掉，怎麼辦，反正官方**是看來找不到答案了，就算找到，也會大費周折，算了，還是google吧，google了無數結果，也實驗了無數次，也許是功到自然成吧，終於找到乙個可用的實驗，把抓去url設定成發現apache下各種子站點和檔案都開始索引了，看著每個執行緒慢慢增長，我心裡有一種如釋重負的滿足感，於是把規則改到內網，抓去，ok，我資訊的看到，各種站點，子站點都開始被抓去了，10個執行緒在乙個4核的cpu上慢慢跑吧，呵呵

總結起來，使用nutch配置一共需要注意以下幾點

a. 配置抓去url 在conf/crawl-urlfilter.txt 檔案裡頭

b. 配置幾個http選項主要在 nutch-default.xml 和 nutch-site.xml裡面

c. 配置cynwin環境在windows下使用nutch 必須

d. 在nutch下新建目錄作為存放被抓去主要url的檔案，檔案不必有副檔名

e. 在tomcat下部署nutch會亂碼，修復亂碼問題

f. nutch api 的使用 ... ...

Nutch 配置可恥的失敗

nutch配置成功

這可恥的成熟

windows下配置nutch注意的問題

Nutch 配置 可恥的失敗

nutch配置成功

這可恥的成熟

windows下配置nutch注意的問題

相關推薦

Nutch 配置可恥的失敗