Lucene 搜尋詞分詞

2021-05-24 14:43:37 字數 430 閱讀 7038

搜尋詞分詞也即對使用者輸入的搜尋詞進行分詞處理,如「民族 信仰」。如果不對它進行分詞,可能搜尋不到東西,但單獨搜尋「民族」或「信仰」抑或「民族信仰」都可以搜到東西,故要對其進行分詞。

兩種方法:

(1)空格分詞,字串處理

單個詞項搜尋的**:

修改後的,空格隔開的多個詞項的搜尋

(2)利用ik等中文分詞元件

使用和建索引時一樣的分詞器,會取得最佳的搜尋效果

首先引入分詞器相關的類

import org.mira.lucene.analysis.ik_canalyzer; //分詞器,對搜尋詞分詞

import org.apache.lucene.analysis.tokenstream;

import org.apache.lucene.analysis.token;

主要**:

如何有效的使用搜尋詞

建立有效搜尋的關鍵師合理利用索引。應該了解以下關鍵點 1 搜尋詞師不區分大小寫的 所以對同乙個詞進行搜尋,將會獲得相同的結果。2 搜尋詞是具有可加性的 可以使用多個詞進行搜尋,同時具有這些詞的事件才會被找到。3 僅在指定的時間範圍內進行查詢 4 搜尋詞是乙個或多個完整的字,而不是字的一部分 5 單詞...

hive入門(三)查詢搜尋詞

同事大佬給我支個招,設定hadoop佇列名字,至於啥意思,有什麼影響,會不會影響線上,都是不得而知的,只管先用吧。set mapreduce.job.queuename yourqueue 然後就解決了。這真是蛋疼啊。1 如何分詞作embedding呢?2 怎麼輸入網路啊?woc,太懵逼了。for ...

Python 爬取必應(桌布 搜尋詞)

效果如下 如下 import requests import re import os headers defget page num page list for i in range 1 num 1 url f return page list defget html url r requests...