流程圖
一.建立文件
文件域
注: 每乙個doucment可以有多個field,不同的document可以有不同的field,同乙個document可以有相同的field(網域名稱和域值都相同)
每乙個文件都有唯一的編號
二.分析文件
將文件中的大寫轉化成小寫,清除 is a 標點 停用詞等過程生成語彙單元,每乙個單詞叫乙個term,不同的域中拆分出來的的單詞是不同的term file_name 和file_content中的相同單詞屬於不同的域,
term key:域 value: spring只有key和value相同的才是乙個東西
三.建立索引
lucene 全文檢索
在講全文檢索之前,先說下資訊檢索。資訊檢索通俗的講,就是從資訊集合中找出與使用者相關的資訊,除了文字之外,還有音訊 影象等。全文檢索 把使用者的查詢請求和全文中的每個詞進行比較,不考慮查詢請求與文字語義上的匹配。b 全文檢索是指計算機索引程式通過掃瞄文章中的每乙個詞,對每乙個詞建立乙個索引,指明該詞...
Lucene全文檢索初探
1 全文檢索是什麼 先建立索引,再對索引進行搜尋的過程。2 為什麼需要全文檢索 在網頁搜尋時,如果沒有全文檢索,每一次檢索資料都會對資料庫進行查詢,當資料庫的資料量非常大時,搜尋起來非常耗時以及耗費資源,所以我們可以先將資料庫的資料採集出來,提前對這些資料進行整理,建立索引,將這些索引檔案儲存到伺服...
Lucene 全文檢索案例
順序掃瞄法 全盤掃瞄,效率低 全文檢索法 先建立索引再進行搜尋 1 建立乙個directory物件,指定索引庫儲存的位置 2 基於directory物件建立乙個indexwriter物件 3 讀取磁碟上的檔案,對應每個檔案建立乙個文件物件 4 向文件物件中新增域 5 把文件物件寫入索引庫 6 關閉i...