為了學習方便**: 感謝
總結使用搜狗詞庫製作mmseg詞典的方法和步驟。另外,最近一直沒寫新部落格,一方面是因為懶,另一方面是確實沒什麼可寫的。
coreseek的介紹和安裝說明可參考這裡,不再贅述。以下是接下來需要注意的幾點:
./extract-sougou-dict.py sougou/*.scel -o sougou-dict.txt -mmseg
生成的sougou-dict.txt可供mmseg庫分詞使用。
假設已有的詞典檔案為unigram.txt,則執行指令碼
./merge-mmseg-dict.py -a unigram.txt -b sougou-dict.txt -o merged.txt
這裡以unigram.txt為主詞典,意味著如果在合併的過程**現重複片語,則忽略sougou-dict.txt中的重複片語。
*表示詞典檔案的目錄,該目錄下必須有uni.lib詞典檔案存在
首先備份下舊的詞典檔案
cd /usr/local/mmseg3/etc
mv unigram.txt unigram.txt.bak
mv uni.lib uni.lib.bak
cd -
將合併後的詞典重新命名為unigram.txt,在指定的目錄裡執行mmseg
mv merged.txt /usr/local/mmseg3/etc/unigram.txt
/usr/local/mmseg3/bin/mmseg -u /usr/local/mmseg3/etc/unigram.txt
最後將生成的unigram.txt.uni重新命名為uni.lib
cd /usr/local/mmseg3/etc
mv unigram.txt.uni uni.lib
需要注意乙個比較蛋疼的問題,更新後的分詞效果對已建立的索引無效1
。找乙個之前無法分詞的片語,然後用mmseg進行測試,這裡假設詞典位於/usr/local/mmseg3/etc目錄下
echo "金交所" > whatever.txt
/usr/local/mmseg3/bin/mmseg -d /usr/local/mmseg3/etc whatever.txt
如果詞典中沒有`金交所'這個片語,結果通常如下
金/x 交/x 所/x
word splite took: 0 ms.
如果在自定義的詞典中有`金交所'這個片語,則結果如下
金交所/x
word splite took: 0 ms.
以下兩個指令碼放在github上。
libmmseg庫介紹和詞典檔案的介紹
搜狗詞庫轉為txt格式(小小輸入法)
coreseek中文分詞核心配置
使用docker製作自定義靜態網頁輸出
一台centos7虛擬機器 安裝docker客戶端 可以連線外網 前置操作 在根目錄下操作 建立檔案sample mkdir sample cd sample 在sample目錄下製作dockerfile文件 vi dockerfile from ubuntu 14.04.3 run sudo ap...
C 自定義控制項製作和使用例項(winform)
c 自定義使用者控制項 上篇 控制項製作 本例是製作乙個簡單的自定義控制項,然後用乙個簡單的測試程式,對於初學者來說,本例子比較簡單,只能起到拋石引玉的效果。我也是在學習當中,今後會將自己所學的逐步寫出來和大家交流共享。第一步 新建乙個控制項庫專案 mycontrol 第二步 從工具箱裡面拖動1個p...
C 自定義控制項製作和使用例項(winform)
2018年04月26日 15 01 11 烏班圖ysm 閱讀數 5788 c 自定義使用者控制項 本例是製作乙個簡單的自定義控制項,然後用乙個簡單的測試程式,對於初學者來說,本例子比較簡單,只能起到拋石引玉的效果。我也是在學習當中,今後會將自己所學的逐步寫出來和大家交流共享。第一步 新建乙個控制項庫...