nutch抓取下來,但搜尋不到結果的解決方案

2021-08-30 20:15:23 字數 887 閱讀 9489

nutch建立索引成功,通過lucene直接搜尋索引檔案可以搜尋到相關結果,但是通過nutch搜尋不到結果

解決方案:

searcher.dir

crawl

在nutch-default.xml中配置searcher.dir的預設路徑為crawl,nutch會到crawl這個路徑裡面搜尋,而你的索引檔案跟本不在這個目錄下面,所有搜尋不到結果.

你可以在nutch-site.xml中加入searcher.dir這個屬性的配置,value為nutch的索引檔案的上一級目錄.

比如:我的索引檔案為f:/cygwin/home/nutch-1.0/crawled/index,

配置為f:/cygwin/home/nutch-1.0/crawled

(注:我使用相對路徑時也沒搜到結果,後用絕對路徑後可以了,推薦先用一下絕對路徑。)

然後從nutch-default.xml中把包括名為search.dir的屬性複製到

nutch-site.xml,修改之間的內容,如下:

searcher.dir

f:/cygwin/home/nutch-1.0/crawled

path to root of crawl. this directory is searched (in

order) for either the file search-servers.txt, containing a list of

distributed search servers, or the directory "index" containing

merged indexes, or the directory "segments" containing segment

indexes.

摘自我在sogou上的回答。

Nutch的抓取工作問題

現在碰到的棘手問題是,要對nutch的fetch結果content進行媒介 天涯,網易等等 分類,比如 data segements content part 00000 天涯 data segements content part 00000 網易 我的想法是在fetch的outpath進行構造,...

nutch2 2 1抓取流程

整體流程 injectorjob generatorjob fetcherjob parserjob dbupdaterjob solrindexerjob injectorjob 從檔案中得到一批種子網頁,把它們放到抓取資料庫中去 generatorjob 從抓取資料庫中產生要抓取的頁面放到抓取佇...

Nutch抓取原始碼分析之Crawl類

1 初始化乙個configuration例項設定抓取工作配置 2 設定一些預設抓取工作引數,比如程序數threads 抓取深度depth 抓取網頁數量topn 3 建立抓取工作抓取到的網頁檔案的存放目錄 crawldb linkdb segments indexes index 用來存放原生網頁,以...