搜尋詞分詞也即對使用者輸入的搜尋詞進行分詞處理,如「民族 信仰」。如果不對它進行分詞,可能搜尋不到東西,但單獨搜尋「民族」或「信仰」抑或「民族信仰」都可以搜到東西,故要對其進行分詞。
兩種方法:
(1)空格分詞,字串處理
單個詞項搜尋的**:
修改後的,空格隔開的多個詞項的搜尋
(2)利用ik等中文分詞元件
使用和建索引時一樣的分詞器,會取得最佳的搜尋效果
首先引入分詞器相關的類
import org.mira.lucene.analysis.ik_canalyzer; //分詞器,對搜尋詞分詞
import org.apache.lucene.analysis.tokenstream;
import org.apache.lucene.analysis.token;
主要**:
如何有效的使用搜尋詞
建立有效搜尋的關鍵師合理利用索引。應該了解以下關鍵點 1 搜尋詞師不區分大小寫的 所以對同乙個詞進行搜尋,將會獲得相同的結果。2 搜尋詞是具有可加性的 可以使用多個詞進行搜尋,同時具有這些詞的事件才會被找到。3 僅在指定的時間範圍內進行查詢 4 搜尋詞是乙個或多個完整的字,而不是字的一部分 5 單詞...
hive入門(三)查詢搜尋詞
同事大佬給我支個招,設定hadoop佇列名字,至於啥意思,有什麼影響,會不會影響線上,都是不得而知的,只管先用吧。set mapreduce.job.queuename yourqueue 然後就解決了。這真是蛋疼啊。1 如何分詞作embedding呢?2 怎麼輸入網路啊?woc,太懵逼了。for ...
Python 爬取必應(桌布 搜尋詞)
效果如下 如下 import requests import re import os headers defget page num page list for i in range 1 num 1 url f return page list defget html url r requests...