python庫 jieba 中文分詞

import jieba

精確模式，試圖將句子最精確地切開，適合文字分析；全模式，把句子中所有的可以成詞的詞語都掃瞄出來, 速度非常快，但是不能解決歧義；搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜尋引擎分詞。

.cut()

sentence

需要分詞的字串

cut_all=f

是否採用全模式(否則使用精確模式)

hmm=t

是否使用hmm模型(可識別不在詞典中的詞)

.cut_for_search()

(sentence, hmm=t) 搜尋引擎模式

.load_userdict(f)

載入詞典, f為自定義詞典的路徑詞典格式和dict.txt一樣, 乙個詞佔一行; 每一行分三部分, 一部分為詞語, 另一部分為詞頻（可省略, 詞頻越高成詞機率越大），最後為詞性（可省略）, 用空格隔開

.suggest_freq()

使用建議的單詞頻率強制乙個單詞中的字元拆分或連線

.add_word()

word

需要修改詞頻或詞性的詞

freq=n

設定詞頻

tag=n

設定詞性

import jieba.analyse

.extract_tags

sentence

待提取的文字

topk=20

withweight=f

allowpos=()

僅包括指定詞性的詞, 預設不篩選

withflag=f

當 allowpos不為空,是否返回物件(word, weight),類似posseg.cut