使用到jieba庫 --python 第三方中文分詞庫
1 安裝jieba庫 ;
2 紅樓夢 txt 文件
import jieba
txt =
open
("紅樓夢.txt"
,"r"
,encoding=
'utf-8'
).read(
)wenben =jieba.lcut(txt)
#使用精確模式對文字進行分詞
counts =
# 通過鍵值對的形式儲存詞語及其出現的次數
# 類似於
for word in wenben:
iflen
(word)==1
:# 單個詞語不計算在內
continue
else
: counts[word]
=counts.get(word,0)
+1# 遍歷所有詞語,每出現一次其對應的值加 1
temp =
list
(counts.items())
# items() 函式以列表返回可遍歷的(鍵, 值) 元組陣列 #字典的鍵值對變成列表
temp.sort(key=
lambda x:x[1]
, reverse=
true
)# 根據詞語出現的次數進行從大到小排序
for i in
range(15
):word , count=temp[i]
print(""
.format
(word,count)
)# 0表示word <10表示左對齊,並佔10個位置
#format按輸出
紅樓夢詩詞
紅樓夢詩詞 敦煌春秋 葬花吟花謝花飛飛滿天,紅消香斷有誰憐?游絲系飄春榭,落絮輕沾撲繡簾。閨中女兒惜春暮,愁緒滿懷無釋處。手把花鋤出繡簾,忍踏落花來復去?柳絲榆莢自芳菲,不管桃飄與李飛。桃李明年能再發,明年閨中知有誰?三月香巢已壘成,梁間燕子太無情。明年花髮雖可啄,卻不道人去梁空巢也傾。一年三百六十...
紅樓夢人物出場次數統計
這個也是學習過程中的乙個成果吧,希望大家能批評指正。紅樓夢人物出場次數統計。亮點在於,考慮了人物的別稱,以及有較為豐富的排除詞庫。如鳳姐的稱謂就有許多,鳳辣子,鳳姐,王熙鳳等等,還有黛玉,有林黛玉,林妹妹,林丫頭等等。很多人如果不把這些考慮在內,就容易導致錯誤的結果。不得不說,寶玉是絕對的主角。人們...
好了歌 紅樓夢
世人都曉神仙好,只有功名忘不了!古今將相在何方?荒塚一堆草沒了!世人都曉神仙好,只有金銀忘不了!終朝只恨聚無多,及到多時眼閉了!世人都曉神仙好,只有姣妻忘不了!君生日日說恩情,君死又隨人去了!世人都曉神仙好,只有兒孫忘不了!痴心父母古來多,孝順兒孫誰見了?甄士隱 好了歌 陋室空堂,當年笏滿床!衰草枯...