cmd執行命令:mecab -d mecab-chinesedic-binary wakati wiki.zh.text.jian -o wiki.zh.text.jian.seg -b 10000000
其中,wiki.zh.text.jian是乙個中文資料集,wiki.zh.text.jian.seg為分割後文字。
2.使用中文分詞工具jieba
#encoding=utf-8
import
jieba
#全模式
text = "我來到北京清華大學"
seg_list = jieba.cut(text, cut_all=true
u"[全模式]: "
, "/ "
.join(seg_list)
#精確模式
seg_list = jieba.cut(text, cut_all=false
u"[精確模式]: "
, "/ "
.join(seg_list)
#預設是精確模式
seg_list = jieba.cut(text)
u"[預設模式]: "
, "/ "
.join(seg_list)
#新詞識別 「杭研」並沒有在詞典中,但是也被viterbi演算法識別出來了
seg_list = jieba.cut("他來到了網易杭研大廈"
)
u"[新詞識別]: "
, "/ "
.join(seg_list)
#搜尋引擎模式
seg_list = jieba.cut_for_search(text)
u"[搜尋引擎模式]: "
, "/ "
.join(seg_list)
#當然也可以用自己定義的詞典如:
#匯入自定義詞典
jieba.load_userdict("dict.txt"
)
#讀取檔案並儲存
從baiduspider檔案中讀取0001.txt~0204.txt檔案,分別進行分詞處理再儲存。
[python]view plain
copy
#encoding=utf-8
import
sys
import
re
import
codecs
import
os
import
shutil
import
jieba
import
jieba.analyse
#匯入自定義詞典
) #精確模式
output = ' '
.join(list(seglist))
#空格拼接
output
result.write(output + '\r\n'
) line = source.readline()
else
'end file: '
+ str(num)
source.close()
result.close()
num = num + 1
else
'end all'
#run function
if__name__ ==
'__main__'
: read_file_cut()
scws中文分詞元件
使用類方法分詞 so scws new so set charset gbk 這裡沒有呼叫 set dict 和 set rule 系統會自動試呼叫 ini 中指定路徑下的詞典和規則檔案 so send text 我是乙個中國人,我會c 語言,我也有很多t恤衣服 while tmp so get r...
Lucene中文分詞元件 JE Analysis
採用正向最大匹配的中文分詞演算法,相當於分詞粒度等於0 mmanalyzer analyzer new mmanalyzer 引數為分詞粒度 當字數等於或超過該引數,且能成詞,該詞就被切分出來 mmanalyzer analyzer new mmanalyzer int wordlength 字串切...
Python中文分詞元件jieba
output 全模式 我 來到 北京 清華 清華大學 華大 大學 精確模式 我 來到 北京 清華大學 新詞識別 他,來到,了,網易,杭研,大廈 此處,杭研 並沒有在詞典中,但是也被viterbi演算法識別出來了 搜尋引擎模式 小明,碩士,畢業,於,中國,科學,學院,科學院,中國科學院,計算,計算所,...