Luncene工作原理

lucene是乙個高效能的全文檢索工具包，它使用的是倒排檔案索引結構。lucene可以對任何的資料做索引和搜尋.lucene不管資料來源是什麼格式,只要它能被轉化為文字的形式,就可以被lucene所分析利用.也就是說不管是msword, html,pdf還是其他什麼形式的檔案只要你可以從中抽取出文字形式的內容就可以被lucene所用.你就可以用lucene對它們進行索引以及搜尋.

該結構及相應的生成演算法如下：

0）設有兩篇文章1和2

a.我們現在有的是文章內容，即乙個字串，我們先要找出字串中的所有單詞，即分詞。英文單詞由於用空格分隔，比較好處理。中文單詞間是連在一起的需要特殊的分詞處理。

b.文章中的」in」, 「once」「too」等詞沒有什麼實際意義，中文中的「的」「是」等字通常也無具體含義，這些不代表概念的詞可以過濾掉

c.使用者通常希望查「he」時能把含「he」，「he」的文章也找出來，所以所有單詞需要統一大小寫。

d.使用者通常希望查「live」時能把含「lives」，「lived」的文章也找出來，所以需要把「lives」，「lived」還原成「live」

e.文章中的標點符號通常不表示某種概念，也可以過濾掉

在lucene中以上措施由analyzer類完成

經過上面處理後

guangzhou 1

he 2

i 1live 1,2

shanghai 2

tom 1

加上「出現頻率」和「出現位置」資訊後，我們的索引結構變為：

guangzhou 1[2] 3，6

he 2[1] 1

i 1[1] 4

live 1[2],2[1] 2，5，2

shanghai 2[1] 3

tom 1[1] 1

以live這行為例我們說明一下該結構：live在文章1中出現了2次，文章2中出現了一次，它的出現位置為「2,5,2」這表示什麼呢？我們需要結合文章號和出現頻率來分析，文章1中出現了2次，那麼「2,5」就表示live在文章1中出現的兩個位置，文章2中出現了一次，剩下的「2」就表示live是文章2中第2個關鍵字。

下面我們可以通過對該索引的查詢來解釋一下為什麼要建立索引。

假設要查詢單詞「live」，lucene先對詞典二元查詢、找到該詞，通過指向頻率檔案的指標讀出所有文章號，然後返回結果。詞典通常非常小，因而，整個過程的時間是毫秒級的。

而用普通的順序匹配演算法，不建索引，而是對所有文章的內容進行字串匹配，這個過程將會相當緩慢，當文章數目很大時，時間往往是無法忍受的。

示例介紹:

為作為輸入引數的資料夾下的所有txt型別的檔案做索引,做好的索引檔案放入index資料夾。示例是對txt型別的檔案做索引，對資料庫做索引用方法與此類似，只是資料的**不同。對檔案做索引，搜尋的時候返回的是檔名；對資料庫中的表做索引，則應返回主鍵值。

然後在索引的基礎上對檔案進行全文搜尋.

建立索引

indexwriter writer = newindexwriter("index", new standardanalyzer(), true);

indexdocs(writer, newsystem.io.fileinfo(args[0]));

writer.optimize();

writer.close();

indexwriter是對索引進行寫操作的乙個類,利用它可以建立乙個索引物件然後往其中新增檔案.需要注意它並不是唯一可以修改索引的類.在索引建好後利用其他類還可以對其進行修改.

建構函式第乙個引數是建立的索引所要放的資料夾的名字.第二個引數是乙個分析物件,主要用於從文字中抽取那些需要建立索引的內容,把不需要參與建索引的文字內容去掉.比如去掉一些athe之類的常用詞,還有決定是否大小寫敏感.不同的選項通過指定不同的分析物件控制.第三個引數用於確定是否覆蓋原有索引的.

第二步就是利用這個writer往索引中新增檔案.具體後面再說.

第三步進行優化.

第四步關閉writer.

下面具體看看第二步:

public static void indexdirectory(indexwriterwriter, fileinfo file)}}

//如果file是乙個.txt檔案

else if (file.extension == ".txt")}

private static void indexfile(fileinfo file, indexwriterwriter)

catch (filenotfoundexception fnfe)

}主要就是兩個函式乙個用於處理資料夾(不是為資料夾建立索引),乙個用於真正為檔案建立索引.

因此主要集中看一下indexfile這個方法.首先建立document物件,然後為document物件新增一些屬性field.你可以把document物件看成是虛擬檔案,將來將從此獲取資訊.而field則看成是描述此虛擬檔案的元資料(metadata).

其中field包括四個型別:

keywork

該型別的資料將不被分析,而會被索引並儲存儲存在索引中.

unindexed

該型別的資料不會被分析也不會被索引,但是會儲存在索引.

unstored

和unindexed剛好相反,被分析被索引,但是不被儲存.

text

和unstrored類似.如果值的型別為string還會被儲存.如果值的型別reader就不會被儲存和unstored一樣.

最後將每乙個document新增到索引當中.

需要注意的是索引不僅可以建立在檔案系統上,也可以建立在記憶體中.

例如indexwriter writer = new indexwriter("index", newstandardanalyzer(), true);

在第乙個引數不是指定資料夾的名字而是使用directory物件,並使用它的子類ramdirectory,就可以將索引建立在記憶體當中.

對索引進行搜尋

indexsearcher indexsearcher= newindexsearcher(indexdir);

query query = queryparser.parse(querystring,"contents",new standardanalyzer());

hits hits = indexsearcher.search(query);

//儲存

arraylist list = new arraylist();

for (int i = 0; i < hits.length(); i++)

searcher.close();

return list;

第一步利用indexsearcher開啟索引檔案用於後面搜尋,其中的引數是索引檔案的路徑.

第二步使用queryparser將可讀性較好的查詢語句(比如查詢的詞lucene,以及一些高階方式lucene and.net)轉化為lucene內部使用的查詢物件.

第三步執行搜尋.並將結果返回到hits集合.需要注意的是lucene並不是一次將所有的結果放入hits中而是採取一次放一部分的方式.出於空間考慮.

Luncene工作原理

Luncene學習和使用

簡述hdfs工作原理 HDFS的工作原理

mysql nfs原理 nfs工作原理

Luncene工作原理

Luncene學習和使用

簡述hdfs工作原理 HDFS的工作原理

mysql nfs原理 nfs工作原理

相關推薦