lucene整理1 概念

2021-05-22 01:36:00 字數 1509 閱讀 2435

lucene

是乙個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎。

lucene

以其方便使用、快速實施以及靈活性受到廣泛的關注。它可以方便地嵌入到各種應用中實現針對應用的全文索引、檢索功能,本總結使用

lucene--2.3.2。1

、org.apache.lucene.analysis

對需要建立索引的文字進行分詞、過濾等操作

, 語言分析器,主要用於的切詞

analyzer

是乙個抽象類,管理對文字內容的切分詞規則。2、

org.apache.lucene.analysis.standard

是標準分析器3、

org.apache.lucene.document

提供對document

和field

的各種操作的支援。索引儲存時的文件結構管理,類似於關係型資料庫的表結構。

document

相對於關係型資料庫的記錄物件,

field

主要負責欄位的管理。4、

org.apache.lucene.index

是最重要的包,用於向

lucene

提供建立索引時各種操作的支援。索引管理,包括索引建立、刪除等。索引包是整個系統核心,全文檢索的根本就是為每個切出來的詞建索引,查詢時就只需要遍歷索引,而不需要去正文中遍歷,從而極大的提高檢索效率。5、

org.apache.lucene.queryparser6、

org.apache.lucene.search

負責檢索。檢索管理,根據查詢條件,檢索得到結果。7、

org.apache.lucene.store

提供對索引儲存的支援。資料儲存管理,主要包括一些底層的

i/0操作。8、

org.apache.lucene.util

提供一些常用工具類和常量類的支援

a).fnm

格式包含了

document

中所有field

名稱b)

.fdt

與.fdx

格式.fdt

檔案用於儲存具有

store.yes

屬性的field

的資料;

.fdx

是乙個索引,用於儲存

document

在.fdt

中的位置。

c).tis

與.tii

格式.tis

檔案用於儲存分詞後的詞條(

term

),而.tii

就是它的索引檔案,它表明了每個

.tis

檔案中的詞條的位置。

d)deletable

格式文件被刪除後,會首先在

deletable

檔案中留下乙個記錄,要真正刪除時,才將索引除去。

e)復合索引格式

.cfs 使用

indexwriter

的usecompoundfile()

預設為true

c c 概念整理1

物件是乙個命名的儲存區域,左值是引用了某個物件的表示式。指標可以加上或減去乙個整型表示式。兩個指向同一陣列中同一型別的物件的指標可以進行減法,其結果被轉換為整型。指標可以轉換為整型,但此整型必須足夠大 所要求的大小依賴於具體的實現。整型物件可以顯示的轉換為指標。指向某一型別的指標可以轉換為指向另一型...

lucene 檢索流程整理筆記

booleanclause.occur.must 表示and booleanclause.occur.must not 表示not booleanclause.occur.should 表示or queryparser.and operator operator.and 表示and querypar...

lucene學習之基礎概念

lucene是乙個全文搜尋框架,而不是應用產品。因此它並不像 或者google desktop那麼拿來就能用,它只是提供了一種工具讓你能實現這些產品。1.2 lucene能做什麼 1.3 你該不該選擇lucene 下面給出一些測試資料,如果你覺得可以接受,那麼可以選擇。測試一 250萬記錄,300m...