在使用庖丁自定義詞典的時候,按照網上查的資料,
1.首先自定義乙個***.dic的檔案,以utf-8儲存;
2.將自定義詞新增到dic\locale下的***.dic中;
3.刪除.compile資料夾
配置paoding.dic.home (如果在上面選擇了paoding.dic.home.config-fisrt=this才需要),也有2種方法:使用相對路徑和絕對路徑
classpath下修改的paoding-dic-home.properties檔案
paoding.dic.home.config-fisrt=this
paoding.dic.home=classpath:dic
庖丁有兩種分詞模式:
most-words:最大詞量分詞方式,此模式對應的詞典編譯類為mostwordsmodedictionariescompiler
max-word-length:按詞在詞典中的原序來進行編譯,基本不再做其他處理,此模式對應的詞典編譯類為sortingdictionariescompiler
most-words是預設的分詞模式。
注意:出現自定義
詞不起效果
修改classpath下配置paoding-analyzer.properties,內容如下(需要根據分詞模式來選擇哪種compiler):
#paodinganlyzer mode, "most-words", "max-word-length", "class:com.***.mytokencollectorimpl"...
#paoding.analyzer.mode=most-words
#paoding.analyzer.dictionaries.compiler=net.paoding.analysis.analyzer.impl.mostwordsmodedictionariescompiler
#paoding.analyzer.mode=max-word-length
paoding.analyzer.dictionaries.compiler=net.paoding.analysis.analyzer.impl.sortingdictionariescompiler
最後 刪掉.compile檔案
public class tt
}}
Paoding分詞 擴充套件詞典
庖丁有兩種分詞模式 most words 最大詞量分詞方式,此模式對應的詞典編譯類為mostwordsmodedictionariescompiler max word length 按詞在詞典中的原序來進行編譯,基本不再做其他處理,此模式對應的詞典編譯類為sortingdictionariesco...
Paoding分詞 擴充套件詞典
庖丁有兩種分詞模式 most words 最大詞量分詞方式,此模式對應的詞典編譯類為mostwordsmodedictionariescompiler max word length 按詞在詞典中的原序來進行編譯,基本不再做其他處理,此模式對應的詞典編譯類為sortingdictionariesco...
IKAnalyzer 擴充套件詞典(強制分詞)
前面說到solr ikanalyzer來配置中文分詞 在實際中我們有些需求是需要將特定的詞作為乙個分詞來處理,那麼我們就需要設定自己的詞典 例子 連帽上衣 希望將 連帽 作為乙個詞來處理,並不希望作為 連,帽 來處理 預設分詞 做法 ik analyzer 擴充套件配置 mydict.dic ext...