nutch集群,威力很大,哈哈!!

2021-08-25 23:33:39 字數 427 閱讀 3635

今天用公司的伺服器測試了一把nutch集群很好很強大!

之前也測試過,估計和網路的頻寬有關係吧,效果不是很好,今天測試了一下,確實比單機的速度要快很多!

我測試的是用3臺虛擬機器

每台是8核心cpu 乙個6g記憶體2個4g記憶體

然後爬的**是180個,深度4層,開啟執行緒200,完成時間是2個多小時,而且資源佔用率也就達到20%

之前用8核心6g記憶體單機爬取 180個**,深度4層 開啟執行緒50個,爬取1星期沒有爬取完,資源占用cpu全部100%,記憶體占用800m左右

所以集群的威力還是很大的,這麼一看就可以看出來威力了,所以我打算把這3臺再拆成6臺,讓伺服器能夠把資源利用到最大,下面要好好研究一下hadoop的儲存結構和nutch的具體內容和lucene這塊了!

hdfs,所有的數量應該在這個查詢數量之上。

圖3 查詢結果

nutch1 9 nutch安裝記錄

nutch 安裝記錄 1.安裝windows下的linux模擬環境cygwin 3.在cygwin中進入nutch解壓縮目錄,使用命令cd cygdrive e nutch1.1 cygdrive是cygwin進入碟符的命令 4.執行bin nutch檢視是否可以成功執行 5.在nutch目錄下建立...

如何除錯nutch

必須 匯入nutch專案時其conf檔案下的所有配置檔案需要加入到classpath中 右鍵conf build path use as source folder 在執行時如發生異常 x point org.apache.nutch.net.urlnormalizer not found.注 這是...

nutch配置成功

nutch配置成功,現在進行關鍵的技術選型。根據專案特殊情況及實現中文搜尋可能存在的問題,提出三套技術方案,除自己外,另安排一人選擇第三套方案進行實施測試,預期一周後進行根據測試情況選擇具體的實施方案。由自己負責第一套方案的測試,目前需進行的工作 1 綜合比較nutch和heritrix,選擇合適的...