import jieba
excludes =
txt =
open
("紅樓夢.txt"
,"r"
,encoding=
'utf-8'
).read(
)'''
不寫明路徑的話,預設和儲存的python檔案在同一目錄下 注意開啟格式是utf-8,這個可以開啟txt檔案,選擇另存為,注意介面右下角的格式
'''words = jieba.lcut(txt)
'''利用jieba庫將紅樓夢的所有語句分成詞彙
'''counts =
'''建立的乙個空的字典
'''for word in words:
iflen
(word)==1
:#如果長度是一,可能是語氣詞之類的,應該刪除掉
continue
else
: counts[word]
= counts.get(word,0)
+1''' 如果字典中沒有這個健(名字)則建立,如果有這個健那麼就給他的計數加一
[姓名:數量],這裡是數量加一
'''for word in excludes:
del(counts[word]
)'''
#這一步:如果列出的干擾詞彙在分完詞後的所有詞彙中那麼刪除
'''items =
list
(counts.items())
'''把儲存[姓名:個數]的字典轉換成列表
'''items.sort(key=
lambda x:x[1]
,reverse =
true
)'''
對上述列表進行排序,'true'是降序排列
'''for i in
range(20
):word,count = items[i]
print(""
.format
(word,count)
)
結果示例:
PYTHON中JIEBA分詞關於紅樓夢出現的高頻詞
import jieba excludes txt open 紅樓夢.txt r encoding utf 8 read words jieba.lcut txt 利用jieba庫將紅樓夢的所有語句分成詞彙 counts 建立的乙個空的字典 for word in words if len word...
python 統計紅樓夢人員姓名出現次數
使用到jieba庫 python 第三方中文分詞庫 1 安裝jieba庫 2 紅樓夢 txt 文件 import jieba txt open 紅樓夢.txt r encoding utf 8 read wenben jieba.lcut txt 使用精確模式對文字進行分詞 counts 通過鍵值對...
紅樓夢人物出場次數統計
這個也是學習過程中的乙個成果吧,希望大家能批評指正。紅樓夢人物出場次數統計。亮點在於,考慮了人物的別稱,以及有較為豐富的排除詞庫。如鳳姐的稱謂就有許多,鳳辣子,鳳姐,王熙鳳等等,還有黛玉,有林黛玉,林妹妹,林丫頭等等。很多人如果不把這些考慮在內,就容易導致錯誤的結果。不得不說,寶玉是絕對的主角。人們...