nutch 1 0 的分布式查詢部署

2021-08-31 05:49:12 字數 860 閱讀 9831

/data/winter/search-dir

path to root of crawl. 即 search-servers.txt 所在的父目錄

subserver(172.16.100.2及172.16.100.3)的配置:

1. 設subserver配置位址為: /data/search-server

2. 將/data/nutch下的bin、conf、lib、plugin s等拷貝到/data/search-server下;

3. chmod +x bin,使得bin下的指令碼可執行;

4. 在conf/nutch-site.xml中新增兩個屬性:

plugin.folders

/data/search-server/plugins

directories where nutch plugins are located.

searcher.dir

/data/indexes

path to root of crawl.

nutch-1.0的分布式查詢只能作為研究學習用,應用在實際搜尋階段有以下幾個問題:

1. 搜尋的idf資訊只是各個subserver相對的idf,未參考整體的idf,這個在nutch jira中有人提過,也有提交過一些patch,可以參考下;

2. distributedsegmentbean 中getsummary(hitdetails detailsarr, query query)方法會導致summary亂序,修改下源**可以解決;

3. hitdetails 的write 及read方法,用utf方法傳輸field 及value,如果長度超過65536,會出現 utfdataformatexception異常,換text吧;

分布式部署

一 分布式架構和部署 1 如何進行分布式部署 2 系統拆分後,模組之間如何相互呼叫 3 如何進行統一的會話 session 管理 4 如何實現單點登入 5 如何保證一致性更新 6 如何規劃和處理分布式事務 7 如何對重要服務實現ha 二 高併發和web層的效能優化 1 高併發的處理 2 nginx的...

solr分布式部署

solr 分布式部署 solr複製模式,是一種在分布式環境下用於同步主從伺服器的一種實現方式,因之前提到的基於rsync的solr不同方式部署成本過高,被solr1.4版本所替換,取而代之的就是基於http協議的索引檔案傳輸機制,該方式部署簡單,只需配置乙個檔案即可。以下講解具體操作步驟 步驟分主伺...

分布式部署(下篇)

服務和使用者服務搭建完畢後,我們繼續搭建剩下的服務 筆記服務和日誌服務。筆記服務負責與筆記本相關的所有業務邏輯處理,也就是本專案中的主要業務功能,在 上基本不需要做修改,只用配置好 consul 即可。結構 entity service 獲取筆記本列表 邏輯中唯一需要修改的地方是獲取筆記本列表。原來...