//採用正向最大匹配的中文分詞演算法,相當於分詞粒度等於0
mmanalyzer analyzer = new mmanalyzer();
//引數為分詞粒度:當字數等於或超過該引數,且能成詞,該詞就被切分出來
mmanalyzer analyzer = new mmanalyzer(int wordlength);
//字串切分,常用於客戶的關鍵字輸入
analyzer.segment(string text, string separator);
詞典維護api(靜態方法):
//增加乙個新詞典,採用每行乙個詞的讀取方式(注意:多執行緒狀態下此時的分詞效果將不可預料)
mmanalyzer.adddictionary(reader reader);
//增加乙個新詞
mmanalyzer.addword(string newword);
//刪除詞庫中的全部詞語(注意:非常危險的操作,在沒有載入新的詞庫前所有的分詞都將失效)
mmanalyzer.clear();
//詞庫中是否包含該詞
mmanalyzer.contains(string word);
//從詞庫中移除該詞
mmanalyzer.removeword(string word);
//當前詞庫中包含的詞語總數
mmanalyzer.size();
中文分詞元件
cmd執行命令 mecab d mecab chinesedic binary wakati wiki.zh.text.jian o wiki.zh.text.jian.seg b 10000000 其中,wiki.zh.text.jian是乙個中文資料集,wiki.zh.text.jian.seg...
scws中文分詞元件
使用類方法分詞 so scws new so set charset gbk 這裡沒有呼叫 set dict 和 set rule 系統會自動試呼叫 ini 中指定路徑下的詞典和規則檔案 so send text 我是乙個中國人,我會c 語言,我也有很多t恤衣服 while tmp so get r...
Python中文分詞元件jieba
output 全模式 我 來到 北京 清華 清華大學 華大 大學 精確模式 我 來到 北京 清華大學 新詞識別 他,來到,了,網易,杭研,大廈 此處,杭研 並沒有在詞典中,但是也被viterbi演算法識別出來了 搜尋引擎模式 小明,碩士,畢業,於,中國,科學,學院,科學院,中國科學院,計算,計算所,...