1、jieba.cut()
引數1 需要分詞的字串
引數2 是否採用全模式,預設是精確模式
seg_list=jieba.cut(『這是乙個測試』,cut_all=false)
可以用』/』.join(seg_list)
2、新增自定義詞典
jieba.load_userdict(filename) filename為自定義詞典的路徑和檔名
格式為:乙個詞一行 每行分為三部分 一部分詞語 另一部分詞頻 最後為詞性 以空格分開
4、詞性標註
import jieba.posseg as pseg
words=pseg.cut(sentence)
for w in words
print w.word,w.flag
5、去停用詞
stopwords=[line.strip().decode(『utf-8』) for line in open(『stop_words.txt』)]
seglist=jieba.cut(sen)
print 『/』.join(set(seglist)-set(stopwords))
這裡用到了set函式,set函式返回的是去重後的無序集合,」-「號表示差集
jieba 利用jieba分詞
目錄 三種分詞模式 新增自定義詞典進行分詞 jieba提供了三種分詞模式,分別是全模式,精確模式和搜尋引擎模式。全模式下會將所有可能的詞語都進行分詞,精確模式下會盡可能的將句子精確切開,搜尋引擎模式實在精確模式的基礎上,對長詞再進行劃分,提高分詞的召回率。使用cut和cut for search即可...
jieba分詞學習筆記(二)
jieba分詞有多種模式可供選擇。可選的模式包括 同時也提供了hmm模型的開關。其中全切分模式就是輸出乙個字串的所有分詞,精確模式是對句子的乙個概率最佳分詞,而搜尋引擎模式提供了精確模式的再分詞,將長詞再次拆分為短詞。效果大抵如下 encoding utf 8 import jieba seg li...
中文分詞jieba學習筆記
四 詞性標註 五 並行分詞 六 返回詞語在原文的起止位置 注意 hmm模型 隱馬爾可夫模型 可以識別新詞 jieba.load userdict filename filename為自定義詞典的路徑 在使用的時候,詞典的格式和jieba分詞器本身的分詞器中的詞典格式必須保持一致,乙個詞佔一行,每一行...