使用jieba 中文分詞庫統計詞頻

以統計水滸傳人物出場次數為例，列出出場次數最高的前三名。

import jieba#引用中文分詞庫

txt = open("shuihu.txt","r",encoding="gb18030").read()#讀取檔案，注意編碼

excludes =#通過不斷優化排除結果中的無用詞

words = jieba.lcut(txt)#中文分詞

counts = {}#用於儲存結果的字典

for word in words:  #遍歷方法統計詞頻
if len(word) == 1:
continue
else:
counts[word]=counts.get(word,0) + 1  #巧用get
for word in excludes:  #排除無用詞
del counts[word]

items = list(counts.items())#將結果轉為列表形式

items.sort(key=lambda x:x[1],reverse=true)#以詞頻從高到低排序

print("".format("人物","次數"))#列印表頭

for i in range(3):     #列印出場次數前三名
word,count = items[i]
print("".format(word,count))

輸入：

輸出：

以三國演義為例，將同一人物的不同稱呼進行合併統計，使用if…elif…else

輸入：

輸出：

Python中文分詞庫 jieba

1 介紹 jieba是優秀的中文分詞第三方庫。由於中文文字之間每個漢字都是連續書寫的，我們需要通過特定的手段來獲得其中的每個單詞，這種手段就叫分詞。而jieba是python計算生態中非常優秀的中文分詞第三方庫，需要通過安裝來使用它。jieba庫提供了三種分詞模式，但實際上要達到分詞效果只要掌握乙個...

Python之jieba中文分詞庫

jieba分詞是python中目前最受歡迎的中文分詞庫，他有許多特點，為了便於介紹直接引用官方介紹如下。支援繁體分詞支援自定義詞典 mit 授權協議 jieba分詞的原理是利用乙個中文詞庫，確定漢字之間的關聯概率，然後組成片語，形成分詞結果，除了分詞，使用者還可以新增自定義的片語。我們先來看乙個最...

python 中文分詞庫 jieba庫

jieba庫概述 jieba是優秀的中文分詞第三方庫中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫，需要額外安裝 jieba庫分為精確模式全模式搜尋引擎模式原理 1.利用乙個中文詞庫，確定漢子之間的關係概率 2.漢字間概率大的組成片語，形成分詞結果 3.除了分詞，使用...

使用jieba 中文分詞 庫統計詞頻

Python中文分詞庫 jieba

Python之jieba中文分詞庫

python 中文分詞庫 jieba庫

相關推薦

使用jieba 中文分詞庫統計詞頻