使用搜狗詞庫製作mmseg自定義詞典

2021-09-30 12:54:04 字數 1530 閱讀 8334

為了學習方便**:  感謝

總結使用搜狗詞庫製作mmseg詞典的方法和步驟。另外,最近一直沒寫新部落格,一方面是因為懶,另一方面是確實沒什麼可寫的。

coreseek的介紹和安裝說明可參考這裡,不再贅述。以下是接下來需要注意的幾點:

./extract-sougou-dict.py sougou/*.scel -o sougou-dict.txt -mmseg

生成的sougou-dict.txt可供mmseg庫分詞使用。

假設已有的詞典檔案為unigram.txt,則執行指令碼

./merge-mmseg-dict.py -a unigram.txt -b sougou-dict.txt -o merged.txt

這裡以unigram.txt為主詞典,意味著如果在合併的過程**現重複片語,則忽略sougou-dict.txt中的重複片語。

*表示詞典檔案的目錄,該目錄下必須有uni.lib詞典檔案存在

首先備份下舊的詞典檔案

cd /usr/local/mmseg3/etc

mv unigram.txt unigram.txt.bak

mv uni.lib uni.lib.bak

cd -

將合併後的詞典重新命名為unigram.txt,在指定的目錄裡執行mmseg

mv merged.txt /usr/local/mmseg3/etc/unigram.txt

/usr/local/mmseg3/bin/mmseg -u /usr/local/mmseg3/etc/unigram.txt

最後將生成的unigram.txt.uni重新命名為uni.lib

cd /usr/local/mmseg3/etc

mv unigram.txt.uni uni.lib

需要注意乙個比較蛋疼的問題,更新後的分詞效果對已建立的索引無效1

。找乙個之前無法分詞的片語,然後用mmseg進行測試,這裡假設詞典位於/usr/local/mmseg3/etc目錄下

echo "金交所" > whatever.txt

/usr/local/mmseg3/bin/mmseg -d /usr/local/mmseg3/etc whatever.txt

如果詞典中沒有`金交所'這個片語,結果通常如下

金/x 交/x 所/x

word splite took: 0 ms.

如果在自定義的詞典中有`金交所'這個片語,則結果如下

金交所/x

word splite took: 0 ms.

以下兩個指令碼放在github上。

libmmseg庫介紹和詞典檔案的介紹

搜狗詞庫轉為txt格式(小小輸入法)

coreseek中文分詞核心配置

使用docker製作自定義靜態網頁輸出

一台centos7虛擬機器 安裝docker客戶端 可以連線外網 前置操作 在根目錄下操作 建立檔案sample mkdir sample cd sample 在sample目錄下製作dockerfile文件 vi dockerfile from ubuntu 14.04.3 run sudo ap...

C 自定義控制項製作和使用例項(winform)

c 自定義使用者控制項 上篇 控制項製作 本例是製作乙個簡單的自定義控制項,然後用乙個簡單的測試程式,對於初學者來說,本例子比較簡單,只能起到拋石引玉的效果。我也是在學習當中,今後會將自己所學的逐步寫出來和大家交流共享。第一步 新建乙個控制項庫專案 mycontrol 第二步 從工具箱裡面拖動1個p...

C 自定義控制項製作和使用例項(winform)

2018年04月26日 15 01 11 烏班圖ysm 閱讀數 5788 c 自定義使用者控制項 本例是製作乙個簡單的自定義控制項,然後用乙個簡單的測試程式,對於初學者來說,本例子比較簡單,只能起到拋石引玉的效果。我也是在學習當中,今後會將自己所學的逐步寫出來和大家交流共享。第一步 新建乙個控制項庫...