IKAnalyzer 擴充套件詞典(強制分詞)

2021-09-01 13:48:04 字數 672 閱讀 9492

前面說到solr+ikanalyzer來配置中文分詞;在實際中我們有些需求是需要將特定的詞作為乙個分詞來處理,那麼我們就需要設定自己的詞典

例子:連帽上衣

希望將 「連帽」 作為乙個詞來處理,並不希望作為 連,帽 來處理

預設分詞:

做法:

<?xml version="1.0" encoding="utf-8"?>

ik analyzer 擴充套件配置

/mydict.dic;

/ext_stopword.dic

我是將 mydict.dic 檔案和 ikanalyzer.cfg.xml 放在同乙個目錄,也可以放在別的地方,配置好路徑就可以了

mydict.dic 檔案中就只有「連帽」 這個詞;

經典問題來了:mydict.dic 必須是 utf-8 的無bom格式編碼。

配置好之後重啟solr,再次檢視分詞:

這樣連帽就能匹配的到了。

搞了好久,才知道是檔案的編碼格式不對。我日的,還必須是無bom格式。

IKAnalyzer 擴充套件詞典(強制分詞)

前面說到solr ikanalyzer來配置中文分詞 在實際中我們有些需求是需要將特定的詞作為乙個分詞來處理,那麼我們就需要設定自己的詞典 例子 連帽上衣 希望將 連帽 作為乙個詞來處理,並不希望作為 連,帽 來處理 預設分詞 做法 ik analyzer 擴充套件配置 mydict.dic ext...

IKAnalyzer 擴充套件詞典(強制分詞)

前面說到solr ikanalyzer來配置中文分詞 在實際中我們有些需求是需要將特定的詞作為乙個分詞來處理,那麼我們就需要設定自己的詞典 例子 連帽上衣 希望將 連帽 作為乙個詞來處理,並不希望作為 連,帽 來處理 預設分詞 做法 ik analyzer 擴充套件配置 mydict.dic ext...

IKAnalyzer 獨立使用 配置擴充套件詞典

public class iikanalyzertest ik 分詞 param query return throws ioexception public static listquerywords string query throws ioexception return list 控制台列...