mmseg 增加詞庫

2021-07-03 21:57:24 字數 431 閱讀 7181

/usr/local/mmseg/etc

這個目錄下

1、了解幾個檔案

mmseg.ini  unigram.txt  uni.lib

uni.lib  --------- 編譯後的詞庫

unigram.txt ----  原詞庫給人看的, 在這裡面新增詞庫

2、新增詞條

海斯隊 1

x:1絲路   1

x:1令人心悸        1

x:13、重新編譯

# /usr/local/mmseg/bin/mmseg -u unigram.txt  ------ 編譯詞庫

生成這個

unigram.txt.uni   ----- 新的編譯ok 的詞庫,給sphinx 用的

4、覆蓋

mv unigram.txt.uni uni.lib

mmseg分詞演算法

不想為了面試而面試,找實習的事還是順其自然,每天刷刷題就行,這樣整天都在看水題效率極低,也水不了幾題。還是得學點有用的東西 9 8日目標 搞清楚mmseg演算法,分別用python和c 實現。mmseg演算法簡介 其關鍵是 1.匹配3個詞得到的片語長度盡量要長 2.每個詞也要盡可能長 3.每個詞要盡...

MMSEG分詞演算法

最近看了下mmseg分詞演算法,覺得這個演算法簡單高效,而且還非常準確 作者聲稱這個規則達到了99.69 的準確率並且93.21 的歧義能被這個規則消除。核心思想是抽取3個可能的詞 存在多個組合 然後根據4個消歧義規則確定到底選擇那個組合 1.組合長度最大 2.組合中平均詞語長度最大 3.詞語長度的...

Mmseg中文分詞演算法解析

mmseg中文分詞演算法解析 author linjiexing 開發中文搜尋和中文詞庫語義自動識別的時候,我採用都是基於mmseg 中文分詞演算法開發的 jcseg 開源工程。使用場景涉及搜尋索引建立時的中文分詞 新詞發現的中文分詞 語義詞向量空間構建過程的中文分詞和文章特徵向量提取前的中文分詞等...