Lucene中文分詞元件 JE Analysis

//採用正向最大匹配的中文分詞演算法，相當於分詞粒度等於0

mmanalyzer analyzer = new mmanalyzer();

//引數為分詞粒度：當字數等於或超過該引數，且能成詞，該詞就被切分出來

mmanalyzer analyzer = new mmanalyzer(int wordlength);

//字串切分，常用於客戶的關鍵字輸入

analyzer.segment(string text, string separator);

詞典維護api（靜態方法）：

//增加乙個新詞典，採用每行乙個詞的讀取方式（注意：多執行緒狀態下此時的分詞效果將不可預料）

mmanalyzer.adddictionary(reader reader);

//增加乙個新詞

mmanalyzer.addword(string newword);

//刪除詞庫中的全部詞語（注意：非常危險的操作，在沒有載入新的詞庫前所有的分詞都將失效）

mmanalyzer.clear();

//詞庫中是否包含該詞

mmanalyzer.contains(string word);

//從詞庫中移除該詞

mmanalyzer.removeword(string word);

//當前詞庫中包含的詞語總數

mmanalyzer.size();

中文分詞元件

cmd執行命令 mecab d mecab chinesedic binary wakati wiki.zh.text.jian o wiki.zh.text.jian.seg b 10000000 其中，wiki.zh.text.jian是乙個中文資料集，wiki.zh.text.jian.seg...

scws中文分詞元件

使用類方法分詞 so scws new so set charset gbk 這裡沒有呼叫 set dict 和 set rule 系統會自動試呼叫 ini 中指定路徑下的詞典和規則檔案 so send text 我是乙個中國人,我會c 語言,我也有很多t恤衣服 while tmp so get r...

Python中文分詞元件jieba

output 全模式我來到北京清華清華大學華大大學精確模式我來到北京清華大學新詞識別他,來到,了,網易,杭研,大廈此處，杭研並沒有在詞典中，但是也被viterbi演算法識別出來了搜尋引擎模式小明,碩士,畢業,於,中國,科學,學院,科學院,中國科學院,計算,計算所,...

Lucene中文分詞元件 JE Analysis

中文分詞元件

scws中文分詞元件

Python中文分詞元件jieba

相關推薦