想做乙個搜尋引擎,最近瀏覽了許多社群,發現lucene和nutch用的很多,而這兩個我總感覺難以區分概念,
於是在查了些資料。下面是lucene和nutch創始人doug cutting 的訪談摘錄:
lucene其實是乙個提供全文文字搜尋的函式庫,它不是乙個應用軟體。它提供很多api函式讓你可以運用到各
種實際應用程式中。現在,它已經成為apache的乙個專案並被廣泛應用著。這裡列出一些已經使用lucene的系統。
nutch是乙個建立在lucene核心之上的web搜尋的實現,它是乙個真正的應用程式。也就是說,你可以直接下
載下來拿過來用。它在lucene的基礎上加了網路爬蟲和一些和web相關的東東。其目的就是想從乙個簡單的站內索
引和搜尋推廣到全球網路的搜尋上,就像google和yahoo一樣。當然,和那些巨人競爭,你得動一些腦筋,想一些
辦法。我們已經測試過100m的網頁,並且它的設計用在超過1b的網頁上應該沒有問題。當然,讓它執行在一台機器
上,搜尋一些伺服器,也執行的很好。
總的來說,我認為lucene會應用在本地伺服器的**內部搜尋,而nutch則擴充套件到整個網路、internet的檢
索。當然lucene加上爬蟲程式等就會成為nutch,這樣理解應該沒錯吧。
簡單的說:
z lucene 不是完整的應用程式,而是乙個用於實現全文檢索的軟體庫。
z nutch 是乙個應用程式,可以以 lucene 為基礎實現搜尋引擎應用。
lucene 為 nutch 提供了文字索引和搜尋的 api。乙個常見的問題是;我應該使用 lucene 還是nutch?最簡單
的回答是:如果你不需要抓取資料的話,應該使用lucene。常見的應用場合是:你有資料來源,需要為這些資料提供一
個搜尋頁面。在這種情況下,最好的方式是直接從資料庫中取出資料並用 lucene api 建立索引。
nutch和lucene的區別
想做乙個搜尋引擎,最近瀏覽了許多社群,發現lucene和nutch用的很多,而這兩個我總感覺難以區分概念,於是在查了些資料。下面是lucene和nutch創始人doug cutting 的訪談摘錄 lucene其實是乙個提供全文文字搜尋的函式庫,它不是乙個應用軟體。它提供很多api函式讓你可以運用到...
Heritrix 和 Nutch的區別
總體來說 heritrix 網路蜘蛛的功能更為強大,nutch 更好地支援搜尋引擎 與 lucene 緊密結合 兩者特點對比如下 nutch 是乙個搜尋引擎框架,而 heritrix nutch heritrix 則可以適用各種型別資訊,嚴格保持網頁原貌。nutch 的更新策略是直接替換原來的舊網頁...
Nutch的local和deploy模式
local模式 1.將hbase安裝目錄下lib 下面的所有 jar 複製到nutch runtime local lib下2.nutch runtime local 下先建立urls目錄mkdir urls,目錄下建立seed.txt touch seed.txt,如果能正常執行,則萬事大吉,你會...