Paoding分詞 擴充套件詞典

2021-08-27 15:32:45 字數 850 閱讀 2055

庖丁有兩種分詞模式:

most-words:最大詞量分詞方式,此模式對應的詞典編譯類為mostwordsmodedictionariescompiler

max-word-length:按詞在詞典中的原序來進行編譯,基本不再做其他處理,此模式對應的詞典編譯類為sortingdictionariescompiler

most-words是預設的分詞模式。

classpath下新增的paoding-dic-home.properties檔案

paoding.dic.home.config-fisrt=this

paoding.dic.home=classpath:dic

classpath下配置新增paoding-analyzer.properties,內容如下(需要根據分詞模式來選擇哪種compiler):

#paodinganlyzer mode, "most-words", "max-word-length", "class:com.***.mytokencollectorimpl"...

#paoding.analyzer.mode=most-words

#paoding.analyzer.dictionaries.compiler=net.paoding.analysis.analyzer.impl.mostwordsmodedictionariescompiler

#paoding.analyzer.mode=max-word-length

paoding.analyzer.dictionaries.compiler=net.paoding.analysis.analyzer.impl.sortingdictionariescompiler

最後 刪掉.compile檔案

Paoding分詞 擴充套件詞典

庖丁有兩種分詞模式 most words 最大詞量分詞方式,此模式對應的詞典編譯類為mostwordsmodedictionariescompiler max word length 按詞在詞典中的原序來進行編譯,基本不再做其他處理,此模式對應的詞典編譯類為sortingdictionariesco...

Paoding分詞 擴充套件詞典

在使用庖丁自定義詞典的時候,按照網上查的資料,1.首先自定義乙個 dic的檔案,以utf 8儲存 2.將自定義詞新增到dic locale下的 dic中 3.刪除.compile資料夾 配置paoding.dic.home 如果在上面選擇了paoding.dic.home.config fisrt ...

IKAnalyzer 擴充套件詞典(強制分詞)

前面說到solr ikanalyzer來配置中文分詞 在實際中我們有些需求是需要將特定的詞作為乙個分詞來處理,那麼我們就需要設定自己的詞典 例子 連帽上衣 希望將 連帽 作為乙個詞來處理,並不希望作為 連,帽 來處理 預設分詞 做法 ik analyzer 擴充套件配置 mydict.dic ext...