在講全文檢索之前,先說下資訊檢索。
資訊檢索通俗的講,就是從資訊集合中找出與使用者相關的資訊,除了文字之外,還有音訊、影象等。
全文檢索:把使用者的查詢請求和全文中的每個詞進行比較,不考慮查詢請求與文字語義上的匹配。
[b]全文檢索是指計算機索引程式通過掃瞄文章中的每乙個詞,對每乙個詞建立乙個索引,指明該詞在文章中出現的次數和位置,當使用者查詢時,檢索程式就根據事先建立的索引進行查詢,並將查詢的結果反饋給使用者的檢索方式。這個過程類似於通過字典中的檢索字表查字的過程。[/b]
來自[quote]
[img]
lucene可以視為開發介面左邊部分
[img]
爬蟲從網際網路上採集資料,經過加工分析,建立索引
Lucene全文檢索
流程圖 一.建立文件 文件域 注 每乙個doucment可以有多個field,不同的document可以有不同的field,同乙個document可以有相同的field 網域名稱和域值都相同 每乙個文件都有唯一的編號 二.分析文件 將文件中的大寫轉化成小寫,清除 is a 標點 停用詞等過程生成語彙...
Lucene全文檢索初探
1 全文檢索是什麼 先建立索引,再對索引進行搜尋的過程。2 為什麼需要全文檢索 在網頁搜尋時,如果沒有全文檢索,每一次檢索資料都會對資料庫進行查詢,當資料庫的資料量非常大時,搜尋起來非常耗時以及耗費資源,所以我們可以先將資料庫的資料採集出來,提前對這些資料進行整理,建立索引,將這些索引檔案儲存到伺服...
Lucene 全文檢索案例
順序掃瞄法 全盤掃瞄,效率低 全文檢索法 先建立索引再進行搜尋 1 建立乙個directory物件,指定索引庫儲存的位置 2 基於directory物件建立乙個indexwriter物件 3 讀取磁碟上的檔案,對應每個檔案建立乙個文件物件 4 向文件物件中新增域 5 把文件物件寫入索引庫 6 關閉i...