1.準備:
apache-nutch-1.2-bin.tar.gz
apache-tomcat-7.0.22.tar.gz
2.步驟:
(1)解壓tar -xzvf apache-nutch-1.2-bin.tar.gz到指定目錄,本文為/home/ncut/目錄下
原來:+^http://([a-z0-9]*\.)*my.domain.name/
改為:+^http://([a-z0-9]*\.)*或者:+^http://([a-z0-9]*\.)*www.baidu.com
(4)開啟nutch-1.2/conf/nutch-site.xml,加入下面內容
這部分是必須的,可以是任意的名字
至此nutch的基本配置完成。
(5)開始爬取網頁
bin/nutch crawl urls -dir crawl -depth 2 -topn 100 -threads 2
其中:
urls是爬取的入口位址
bin/nutch org.apache.nutch.searcher.nutchbean searchwors
其中searchwors
是要搜尋的關鍵字,返回搜尋結果。
3.通過tomcat進行web搜尋
(1)解壓tar xzvf apache-tomcat-7.0.22.tar.gz包到指定目錄
searcher.dir
/home/ncut/nutch-1.2/crawl
這個value值為所爬取到的資料的儲存路徑,搜尋引擎根據這個路徑搜尋到使用者想要的內容。
(3)在web上進行nutch搜尋
在瀏覽器中輸入http://localhost:8080/nutch-1.2,顯示nutch的搜尋介面。
(4)亂碼處理
如果出現亂碼,則將tomcat安裝目錄下conf/server.xml定位到connector並修改一下:
uriencoding="utf-8"
usebodyencodingforuri="true"/>
Linux下solr單機配置
solr的安裝與執行需要jdk的支援,所以要先安裝jdk 1,把solr的壓縮包和aphace的壓縮包上傳到linux的root目錄下 2,解壓solr,tomcat把解壓後的檔案放到 usr solr 新建資料夾solr 找到solr.war壓縮包 然後,新建資料夾solr,解壓solr.war檔...
zookeeper 配置 linux 單機
1.解壓 tar xzvf zookeeper 3.4.6.tar.gz 2.進入目錄zookeeper 3.4.6中,將conf目錄中的zoo sample.cfg檔案複製為zoo.cfg並利用vi命令進行修 改 1 複製並重命名 cp usr local zookeeper zookeeper ...
nutch配置成功
nutch配置成功,現在進行關鍵的技術選型。根據專案特殊情況及實現中文搜尋可能存在的問題,提出三套技術方案,除自己外,另安排一人選擇第三套方案進行實施測試,預期一周後進行根據測試情況選擇具體的實施方案。由自己負責第一套方案的測試,目前需進行的工作 1 綜合比較nutch和heritrix,選擇合適的...