lucene中索引檔案有許多種,不同型別的檔案儲存的不同的資訊,分別如下:
正向資訊:
1.段的元資料資訊
a. segments :為索引的段檔案命名,它的資料格式中包括下乙個段的名稱
b. segments.gen : 為生成的引用檔名命名
2.域資料資訊
a. fnm :域的元資料
b. fdt :域資料資訊
c. fdx :域索引資料
3. 詞資料資訊
a. tvx : 詞向量索引檔案
b. tvd :詞向量文件檔案
c. tvf :詞向量域檔案
反向資訊:
a. tii :詞典索引資訊
b. tis :詞典資訊
c. frq :文件號及詞頻資訊
d. prx :詞位置資訊
其他:a. nrm :標準化因子檔案
b. del :刪除文件檔案
c. cfs :混合合成檔案
d. f :簡單的標準化因子檔案
e. s :單獨的標準化因子檔案
f. deletable : 索引的刪除檔案
附件為各種檔案的格式:
lucene檔案格式分析
segment 每個segment代表lucene乙個完整的索引段。通常乙個索引中包含了多個segment。每個segment都有統一的字首,字首名由document的數量轉成36進製後,在前面加 而構成的。通常乙個完整索引中,有且只有乙個沒有字尾名的segment檔案,它記錄了當前索引中所有的se...
lucene 索引檔案格式
lucene索引檔案格式詳解本文介紹lucene中segment,fnm,fdx,fdt,tii,tis,deletable cfs等格式檔案的用途。1。索引的segment 每個segment代表lucene的乙個完整索引段。通常,在乙個索引中,會包含有多個segment。每個segment都有乙...
lucene 索引檔案格式
下圖是乙個典型的lucene4.x的索引結構圖 lucene4.x之後的所有索引格式如下所示 檔名字尾描述 segments file segments.gen,segments n 儲存段檔案的提交點資訊 lock file write.lock 檔案鎖,保證任何時刻只有乙個執行緒可以寫入索引 s...