1.安裝
將其解壓到任意目錄下,然後開啟命令列進入該目錄執行:python setup.py install 進行安裝
2.測試
安裝完成後,進入python互動環境,import jieba 如果沒有報錯,則說明安裝成功。如下圖所示
3 使用
(1)分詞
結巴分詞支援3中分詞模式:
1,全模式:把句子中的所有可以成詞的詞語都掃瞄出來,
2, 精確模式:試圖將文字最精確的分開,適合於做文字分析。
3,搜尋引擎模式:在精確的基礎上對長詞進行進一步的切分。
函式jieba.cut接受兩個輸入引數,第乙個是將要分詞的物件,第二個是採用的模式。該函式返回的是乙個可以迭代的generator, 可以使用for迴圈得到分詞後得到的每乙個詞語。
示例:
其分詞的結果分別為:# -*- coding: utf-8 -*-
import jieba
seg_list = jieba.cut("夏農在資訊理論中提出的資訊熵定義為自資訊的期望", cut_all=true)
print(" ".join(seg_list))
seg_list = jieba.cut("夏農在資訊理論中提出的資訊熵定義為自資訊的期望")
print(" ".join(seg_list))
seg_list = jieba.cut_for_search("夏農在資訊理論中提出的資訊熵定義為自資訊的期望")
print(" ".join(seg_list))
(2)新增自定義詞典
使用者可以新增自定義的詞典來包含結巴詞庫中沒有的詞。(在以上示例中沒有分出「自資訊」這個詞)
用法: jieba.load_userdict("userdict1.txt")
在檔案userdict1.txt中新增以下的內容:自資訊 5
import jieba
import jieba.analyse
jieba.load_userdict("userdict1.txt")
seg_list = jieba.cut("夏農在資訊理論中提出的資訊熵定義為自資訊的期望", cut_all=true)
(原來識別不出來的「自資訊」現在可以了)
用法:tags = jieba.analyse.extract_tags("sentence", topk=k),其中topk預設值是20
import jieba
import jieba.analyse
jieba.load_userdict("userdict1.txt")
jieba.analyse.set_stop_words("extra_dict/stop_words.txt")
seg_list = jieba.cut("夏農在資訊理論中提出的資訊熵定義為自資訊的期望", cut_all=true)
print(" ".join(seg_list))
tags = jieba.analyse.extract_tags("夏農在資訊理論中提出的資訊熵定義為自資訊的期望", topk=10)
(4)例項:對檔案進行分詞
# -*- coding: utf-8 -*-
import jieba
import jieba.analyse
jieba.load_userdict("userdict1.txt")
jieba.analyse.set_stop_words("extra_dict/stop_words.txt")
def splitsentence(inputfile, outputfile):
fin = open(inputfile, 'r', encoding='utf-8')
fout = open(outputfile, 'w', encoding='utf-8')
for line in fin:
line = line.strip()
line = jieba.analyse.extract_tags(line)
outstr = " ".join(line)
print(outstr)
fout.write(outstr + '\n')
fin.close()
fout.close()
splitsentence('input.txt', 'output.txt')
python結巴分詞
中文分詞是中文文字處理的乙個基礎性工作,結巴分詞利用進行中文分詞。其基本實現原理有三點 基於trie樹結構實現高效的詞圖掃瞄,生成句子中漢字所有可能成詞情況所構成的有向無環圖 dag 採用了動態規劃查詢最大概率路徑,找出基於詞頻的最大切分組合 對於未登入詞,採用了基於漢字成詞能力的hmm模型,使用了...
結巴分詞jieba
全模式text 我來到北京清華大學 seg list jieba.cut text,cut all true print u 全模式 join seg list 精確模式 seg list jieba.cut text,cut all false print u 精確模式 join seg list...
python中文分詞 結巴分詞
中文分詞是中文文字處理的乙個基礎性工作,結巴分詞利用進行中文分詞。其基本實現原理有三點 基於trie樹結構實現高效的詞圖掃瞄,生成句子中漢字所有可能成詞情況所構成的有向無環圖 dag 採用了動態規劃查詢最大概率路徑,找出基於詞頻的最大切分組合 對於未登入詞,採用了基於漢字成詞能力的hmm模型,使用了...