滿以為萬事大吉了,誰想到乙個配置錯誤讓我木鑾了2-3個小時,當我配置好各種引數進行索引的時候,發現索引速度非常快,不到1分鐘就索引完畢了,不對啦,速度也不能這樣快啊,我們整個網路再說也有好幾百兆的東西,下來一看索引大小總共才3k多,我哭,怎麼回事,反正今天上午沒搞定,還延長了半個小時時間,後來回去,一下嘍,突然想起,對了,**原來給弄了個保密的登陸【這是**的保密員想起來的,說什麼公司內網訪問要輸入密碼才可以】,後來想了一下,如果抓去url設定成 會被定向到乙個登陸頁面,明白了,所以索引就結束的快,再者,nutch預設好像不會抓去url帶引數這種比如如果含有 "?" 這種字元會被過濾掉,怎麼辦,反正官方**是看來找不到答案了,就算找到,也會大費周折,算了,還是google吧,google了無數結果,也實驗了無數次,也許是功到自然成吧,終於找到乙個可用的實驗,把抓去url設定成 發現apache下各種子站點和檔案都開始索引了,看著每個執行緒慢慢增長,我心裡有一種如釋重負的滿足感,於是把規則改到內網,抓去,ok,我資訊的看到,各種站點,子站點都開始被抓去了,10個執行緒在乙個4核的cpu上慢慢跑吧,呵呵
總結起來,使用nutch配置一共需要注意以下幾點
a. 配置抓去url 在conf/crawl-urlfilter.txt 檔案裡頭
b. 配置幾個http選項 主要在 nutch-default.xml 和 nutch-site.xml裡面
c. 配置cynwin環境在windows下使用nutch 必須
d. 在nutch下新建目錄 作為存放被抓去主要url的檔案,檔案不必有副檔名
e. 在tomcat下部署nutch會亂碼,修復亂碼問題
f. nutch api 的使用 ... ...
nutch配置成功
nutch配置成功,現在進行關鍵的技術選型。根據專案特殊情況及實現中文搜尋可能存在的問題,提出三套技術方案,除自己外,另安排一人選擇第三套方案進行實施測試,預期一周後進行根據測試情況選擇具體的實施方案。由自己負責第一套方案的測試,目前需進行的工作 1 綜合比較nutch和heritrix,選擇合適的...
這可恥的成熟
網上有很多版本 以至於我也搞不清楚原創是誰 我只是 記錄一下 霧濛濛的空氣,這城市忙碌奔走的人潮起伏。沿著某條街道,遇到分岔路就右轉,卻再也回不到起點。公車裡擠滿了人,你用耳機和 把自己隔離起來。地鐵裡擠滿了人,你用報紙或者手機把自己隔離起來。街道上擠滿了人,你用帽子 圍巾或者psp把自己隔離起來。...
windows下配置nutch注意的問題
1.為處理方便,直接在 nutch目錄下建立乙個名為url.txt檔案,然後在檔案裡新增要搜尋的 例如 注意 最後的 一定要有。前面的 http 也是必不可少的。2.配置crawl urlfilter.txt 開啟 nutch conf crawl urlfilter.txt,找到這兩行 紅色部分是...