1.資料總體分為兩種:
2.非結構化資料查詢方法
(1)順序掃瞄法(serial scanning): 檔案乙個個掃瞄,從檔案頭部到尾部進行掃瞄
(2)全文檢索(full-text search):
3.如何實現全文檢索
4.全文檢索的優勢
5.lucene實現全文檢索的流程
備註(以磁碟檔案索引為例)
查詢索引: 根據關鍵字搜尋索引,再根據索引找到對應的文件,從而找到要搜尋的內容
6.field域的屬性
7.lucene工程涉及到的jar包
lucene包:lucene-core-4.10.3.jar、lucene-analyzers-common-4.10.3.jar、lucene-queryparser-4.10.3.jar
其它包:
commons-io-2.4.jar、junit-4.9.jar
7.lucene功能列舉
7.2. 第三方中文分析器
索引庫的維護
索引庫的查詢
1.可通過兩種方法建立查詢物件
2.query子類
3.queryparse子類 另外
1.爬蟲或蜘蛛(資訊採集):lucene不提供資訊採集,可以通過開源工具來獲取
2.使用luke工具檢視索引,當我們對索引庫進行了修改(原理:先刪除後增加)後,luke可能來不及更新,導致索引詞還是在的,只是對應的資料已經不存在咯, 也可能是索引詞本來就沒被刪除,只是其對應的資料被刪除了 。
3.學習lucene的相關資料在:
Lucene 學習筆記
調整索引索引效能 在乙個典型的索引應用中,程式效能的瓶頸存在於將索引檔案寫入磁碟的過程中。如果你曾經分析過索引過索引應用程式,應該會發現執行程式大部分時間都消耗在操作索引檔案的程式段上,因此我們必要使lucene索引新物件和修改索引檔案時變得更智慧型。當新的document物件新增到lucene的索...
lucene學習筆記
public class luceneadd catch exception e public class lucenesearch public static void main string args file indexdir new file d index try 在磁碟中檢索索引 dir...
Lucene學習筆記
1 lucene的field中的store和index屬性 如果field的store是yes的話,表明這個資料是要儲存在lucene檔案中的,可以用get方法得到 如果field的index是analyzed的話,表明這個資料是有被索引的,可以被搜尋的。這個兩個屬性的四種組合分別的含義是 a st...