lucene中存的就是一系列的二進位制壓縮檔案和一些控制檔案,它們位於計算機的硬碟上,這些內容統稱為索引庫,索引庫有二部份組成:
原始記錄
a)存到索引庫中的原始文字,例如:百知教育是一家nb的it培訓機構
詞彙表
a)按照一定的分詞策略(即分詞器:analyzer),將原始記錄中的每個字元拆分後,存入乙個供將來搜尋的表中
什麼是索引庫
索引庫是lucene的重要的儲存結構,它包括二部份:原始記錄表,詞彙表
原始記錄表:存放的是原始記錄資訊,lucene為存入的內容分配乙個唯一的編號(索引號)
詞彙表:存放的是經過分詞器拆分出來的詞彙和該詞彙在原始記錄表中的編號
為什麼要將索引庫進行優化(4.4 自動優化)
在預設情況下,向索引庫中增加乙個document物件時,索引庫自動會新增乙個擴充套件名叫*.cfs的二進位制壓縮檔案,如果向索引庫中存document物件過多,那麼*.cfs也會不斷增加,同時索引庫的容量也會不斷增加,影響索引庫的大小。
// 執行索引優化
indexwriter.
primit()
;
操作流程圖如下:
1.搜尋結果高亮
2. 搜尋結果摘要
3.索引權重值修改
sql只能針對資料庫表搜尋,不能直接針對硬碟上的文字搜尋
sql沒有相關度排名
sql搜尋結果沒有關健字高亮顯示
sql需要資料庫的支援,資料庫本身需要記憶體開銷較大,例如:oracle
sql搜尋有時較慢,尤其是資料庫不在本地時,超慢,例如:oracle
lucene的基本使用
lucene使用總結 1.建立索引庫 1 確定索引路徑 string path f indexs 2 關聯索引路位置fsdirectory directory fsdirectory.newfile path 3 建立ik分詞器型別 analyzer analyzer new ikanalyzer ...
Lucene 四句話理解基本原理與策略
lucene實現快速搜尋的策略 文字鍊錶建立 建立每個詞對應的文字鍊錶,在多條件查詢時,對單詞對應的鍊錶做交並差操作,雖然索引的建立較為複雜,但只需建立一次,便可反覆使用。分段儲存 早期的全文檢索中,為整個文件集合建立了很大的倒排索引,由於建立索引成本很高,在資料更新頻繁時,無法保證時效性,因此引入...
HTTP基本與原理
1 http的請求過程 uri uniform resource identifier,統一資源標誌符 對url urn的標誌 url uniform resource locator,統一資源定位符 urn,之命名資源而不指定如何定位資源 urn uniform resource name,統一資...