中文分詞器IK和Paoding技術對比

2021-07-10 18:00:29 字數 876 閱讀 1440

優點:

缺點:

優點:

缺點:

(評估

:二者的分詞方式很相近

; 且對未登入詞都是採用二元分詞。)

ik分詞是「

正向迭代最細粒度切分演算法

」,故它是從開始以循序分詞。

而paoding

分詞雖然也是正向分詞

(迭代器來進行的快取),

但是它是

貪婪的切詞,就是說找到乙個詞後,繼續往下找,找到以這個字開頭的所有詞為止。

二者的粗粒度的結果是一樣的,都是取最大詞。

例句:

「圓柱滾子軸承

n313em-p4 skf -- 

流體用冷不鏽鋼無縫鋼管

22*3 316l -- 45

°無縫彎頭

dn200 8mm 20# 219 1.5d -- 

無縫等徑三通

dn250 7mm 20# gb/t12459」

圓柱|滾子

|滾|子

|軸承|n313em-p4

|n|313|em|p|4|

skf

圓柱|滾子

|軸承|n313em-p4|skf

圓柱|滾

子|軸承|n|313|em|p|4|p4|em-p4|313em-p4|

n313em-p4|skf圓柱|

滾|滾子|

軸承|n|313|em|p|4|p4|em-p4|313em-p4|

n313em-p4|skf|

圓柱|滾子

|軸承|n313em-p4|skf

新增ik中文分詞器和pinyin分詞器

1.把ik檔案上傳到docker掛載的plugins1和plugins2中 2.es文件型別對映 在kibana修改一下內容 1.實體文件對映類 document indexname user type user data public class userentity 2.實體類對映關係 impo...

elasticsearch中文分詞器IK的使用

ik中文分詞器的安裝 新增乙個索引庫 put test 利用該索引庫進行分詞測試 get test analyze 分詞結果 可以看到比es中預設的標準分詞器standard對中文分詞要好很多 3.自定義詞庫 post test analyze 預設情況下沒有我們自定義的詞庫,它會將博思奧園拆分開,...

solr cloud系列 IK中文分詞器

solr cloud6.1.0設定ik分詞器 準備資料 ik analyzer solr5 5.x.jar 這個jar是在網上找的 solr的6.x版本也能用 ikanalyzer.cfg.xml ik擴充套件分詞和擴充套件停止詞的設定 mydict.dic 擴充套件分詞 stopword.dic ...