以統計水滸傳人物出場次數為例,列出出場次數最高的前三名。
import jieba
#引用中文分詞庫
txt = open("shuihu.txt","r",encoding="gb18030").read()
#讀取檔案,注意編碼
excludes =
#通過不斷優化排除結果中的無用詞
words = jieba.lcut(txt)
#中文分詞
counts = {}
#用於儲存結果的字典
for word in words: #遍歷方法統計詞頻
if len(word) == 1:
continue
else:
counts[word]=counts.get(word,0) + 1 #巧用get
for word in excludes: #排除無用詞
del counts[word]
items = list(counts.items())
#將結果轉為列表形式
items.sort(key=lambda x:x[1],reverse=true)
#以詞頻從高到低排序
print("".format("人物","次數"))
#列印表頭
輸入:for i in range(3): #列印出場次數前三名
word,count = items[i]
print("".format(word,count))
輸出:
以三國演義為例,將同一人物的不同稱呼進行合併統計,使用if…elif…else
輸入:
輸出:
Python中文分詞庫 jieba
1 介紹 jieba是優秀的中文分詞第三方庫。由於中文文字之間每個漢字都是連續書寫的,我們需要通過特定的手段來獲得其中的每個單詞,這種手段就叫分詞。而jieba是python計算生態中非常優秀的中文分詞第三方庫,需要通過安裝來使用它。jieba庫提供了三種分詞模式,但實際上要達到分詞效果只要掌握乙個...
Python之jieba中文分詞庫
jieba分詞是python中目前最受歡迎的中文分詞庫,他有許多特點,為了便於介紹直接引用官方介紹如下。支援繁體分詞 支援自定義詞典 mit 授權協議 jieba分詞的原理是利用乙個中文詞庫,確定漢字之間的關聯概率,然後組成片語,形成分詞結果,除了分詞,使用者還可以新增自定義的片語。我們先來看乙個最...
python 中文分詞庫 jieba庫
jieba庫概述 jieba是優秀的中文分詞第三方庫 中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫分為精確模式 全模式 搜尋引擎模式 原理 1.利用乙個中文詞庫,確定漢子之間的關係概率 2.漢字間概率大的組成片語,形成分詞結果 3.除了分詞,使用...