Lucene中檔案格式介紹

2021-08-30 22:17:28 字數 588 閱讀 4025

lucene中索引檔案有許多種,不同型別的檔案儲存的不同的資訊,分別如下:

正向資訊:

1.段的元資料資訊

a. segments :為索引的段檔案命名,它的資料格式中包括下乙個段的名稱

b. segments.gen : 為生成的引用檔名命名

2.域資料資訊

a. fnm :域的元資料

b. fdt :域資料資訊

c. fdx :域索引資料

3. 詞資料資訊

a. tvx : 詞向量索引檔案

b. tvd :詞向量文件檔案

c. tvf :詞向量域檔案

反向資訊:

a. tii :詞典索引資訊

b. tis :詞典資訊

c. frq :文件號及詞頻資訊

d. prx :詞位置資訊

其他:a. nrm :標準化因子檔案

b. del :刪除文件檔案

c. cfs :混合合成檔案

d. f :簡單的標準化因子檔案

e. s :單獨的標準化因子檔案

f. deletable : 索引的刪除檔案

附件為各種檔案的格式:

lucene檔案格式分析

segment 每個segment代表lucene乙個完整的索引段。通常乙個索引中包含了多個segment。每個segment都有統一的字首,字首名由document的數量轉成36進製後,在前面加 而構成的。通常乙個完整索引中,有且只有乙個沒有字尾名的segment檔案,它記錄了當前索引中所有的se...

lucene 索引檔案格式

lucene索引檔案格式詳解本文介紹lucene中segment,fnm,fdx,fdt,tii,tis,deletable cfs等格式檔案的用途。1。索引的segment 每個segment代表lucene的乙個完整索引段。通常,在乙個索引中,會包含有多個segment。每個segment都有乙...

lucene 索引檔案格式

下圖是乙個典型的lucene4.x的索引結構圖 lucene4.x之後的所有索引格式如下所示 檔名字尾描述 segments file segments.gen,segments n 儲存段檔案的提交點資訊 lock file write.lock 檔案鎖,保證任何時刻只有乙個執行緒可以寫入索引 s...