提取詞項
首先對文件進行分詞, 英文文件使用空格分隔。 去掉沒有實際意義的詞, 如is、a、in、as等 大小寫轉換, 使用關鍵字elasticsearch 能把elasticsearch 和elasticsearch都查詢出來, 因此所有的單詞統一大小寫。 單、複數,過去式、進行時等進行轉換, 如希望使用index關鍵字將index和indexes都查詢出來, 因此需要將indexes還原成index。 過濾標點符號等
有了詞項之後, 就可以建立倒排索引了。 正排索引是文件id對應文件中所有的詞項。 倒排索引是將詞項對映到文件。
正排索引
文件1中國,哈哈,測試
文件2哈哈
文件3測試,哈哈
倒排索引 中國
文件1哈哈
文件1,文件2,文件3
測試文件1,文件3
文件id: 用於根據詞項定位文件的原始資訊
偏移量: 記錄開始和結束的位置, 主要做高亮顯示
倒排索引原理和實現
倒排索引由兩個部分組成 單詞詞典和倒排檔案。所有單詞的倒排列表順序的儲存在磁碟的某個檔案裡,這個檔案即被稱為倒排檔案,倒排檔案是儲存倒排索引的物理檔案。單詞詞典是由文件集合中出現過的所有單詞構成的字串集合,單詞詞典內每條索引項記載單詞本身的一些資訊以及指向 倒排列表 的指標。單詞詞典是倒排索引中非常...
倒排索引原理和實現
倒排索引源於實際應用中需要根據屬性的值來查詢記錄,lucene是基於倒排索引實現的。這種索引表中的每一項都包括乙個屬性值和具有該屬性值的各記錄的位址。由於不是由記錄來確定屬性值,而是由屬性值來確定記錄的位置,因而稱為倒排索引 inverted index 倒排索引由兩個部分組成 單詞詞典和倒排檔案。...
倒排索引原理和實現
倒排索引原理和實現 一篇文章或網頁中,及有關的日期,作者等資訊 它相當於為網際網路上幾千億頁網頁做了乙個索引,好比一本書的目錄 標籤一般。讀者想看哪乙個主題相關的章節,直接根據目錄即可找到相關的頁面。不必再從書的第一頁到最後一頁,一頁一頁的查詢。倒排索引由兩個部分組成 單詞詞典和倒排檔案。所有單詞的...