lucene
是乙個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎。
lucene
以其方便使用、快速實施以及靈活性受到廣泛的關注。它可以方便地嵌入到各種應用中實現針對應用的全文索引、檢索功能,本總結使用
lucene--2.3.2。1
、org.apache.lucene.analysis
對需要建立索引的文字進行分詞、過濾等操作
, 語言分析器,主要用於的切詞
analyzer
是乙個抽象類,管理對文字內容的切分詞規則。2、
org.apache.lucene.analysis.standard
是標準分析器3、
org.apache.lucene.document
提供對document
和field
的各種操作的支援。索引儲存時的文件結構管理,類似於關係型資料庫的表結構。
document
相對於關係型資料庫的記錄物件,
field
主要負責欄位的管理。4、
org.apache.lucene.index
是最重要的包,用於向
lucene
提供建立索引時各種操作的支援。索引管理,包括索引建立、刪除等。索引包是整個系統核心,全文檢索的根本就是為每個切出來的詞建索引,查詢時就只需要遍歷索引,而不需要去正文中遍歷,從而極大的提高檢索效率。5、
org.apache.lucene.queryparser6、
org.apache.lucene.search
負責檢索。檢索管理,根據查詢條件,檢索得到結果。7、
org.apache.lucene.store
提供對索引儲存的支援。資料儲存管理,主要包括一些底層的
i/0操作。8、
org.apache.lucene.util
提供一些常用工具類和常量類的支援
a).fnm
格式包含了
document
中所有field
名稱b)
.fdt
與.fdx
格式.fdt
檔案用於儲存具有
store.yes
屬性的field
的資料;
.fdx
是乙個索引,用於儲存
document
在.fdt
中的位置。
c).tis
與.tii
格式.tis
檔案用於儲存分詞後的詞條(
term
),而.tii
就是它的索引檔案,它表明了每個
.tis
檔案中的詞條的位置。
d)deletable
格式文件被刪除後,會首先在
deletable
檔案中留下乙個記錄,要真正刪除時,才將索引除去。
e)復合索引格式
.cfs 使用
indexwriter
的usecompoundfile()
預設為true
c c 概念整理1
物件是乙個命名的儲存區域,左值是引用了某個物件的表示式。指標可以加上或減去乙個整型表示式。兩個指向同一陣列中同一型別的物件的指標可以進行減法,其結果被轉換為整型。指標可以轉換為整型,但此整型必須足夠大 所要求的大小依賴於具體的實現。整型物件可以顯示的轉換為指標。指向某一型別的指標可以轉換為指向另一型...
lucene 檢索流程整理筆記
booleanclause.occur.must 表示and booleanclause.occur.must not 表示not booleanclause.occur.should 表示or queryparser.and operator operator.and 表示and querypar...
lucene學習之基礎概念
lucene是乙個全文搜尋框架,而不是應用產品。因此它並不像 或者google desktop那麼拿來就能用,它只是提供了一種工具讓你能實現這些產品。1.2 lucene能做什麼 1.3 你該不該選擇lucene 下面給出一些測試資料,如果你覺得可以接受,那麼可以選擇。測試一 250萬記錄,300m...