python 統計紅樓夢人員姓名出現次數

2021-10-01 18:06:44 字數 901 閱讀 7048

使用到jieba庫 --python 第三方中文分詞庫

1 安裝jieba庫 ;

2 紅樓夢 txt 文件

import jieba

txt =

open

("紅樓夢.txt"

,"r"

,encoding=

'utf-8'

).read(

)wenben =jieba.lcut(txt)

#使用精確模式對文字進行分詞

counts =

# 通過鍵值對的形式儲存詞語及其出現的次數

# 類似於

for word in wenben:

iflen

(word)==1

:# 單個詞語不計算在內

continue

else

: counts[word]

=counts.get(word,0)

+1# 遍歷所有詞語,每出現一次其對應的值加 1

temp =

list

(counts.items())

# items() 函式以列表返回可遍歷的(鍵, 值) 元組陣列 #字典的鍵值對變成列表

temp.sort(key=

lambda x:x[1]

, reverse=

true

)# 根據詞語出現的次數進行從大到小排序

for i in

range(15

):word , count=temp[i]

print(""

.format

(word,count)

)# 0表示word <10表示左對齊,並佔10個位置

#format按輸出

紅樓夢詩詞

紅樓夢詩詞 敦煌春秋 葬花吟花謝花飛飛滿天,紅消香斷有誰憐?游絲系飄春榭,落絮輕沾撲繡簾。閨中女兒惜春暮,愁緒滿懷無釋處。手把花鋤出繡簾,忍踏落花來復去?柳絲榆莢自芳菲,不管桃飄與李飛。桃李明年能再發,明年閨中知有誰?三月香巢已壘成,梁間燕子太無情。明年花髮雖可啄,卻不道人去梁空巢也傾。一年三百六十...

紅樓夢人物出場次數統計

這個也是學習過程中的乙個成果吧,希望大家能批評指正。紅樓夢人物出場次數統計。亮點在於,考慮了人物的別稱,以及有較為豐富的排除詞庫。如鳳姐的稱謂就有許多,鳳辣子,鳳姐,王熙鳳等等,還有黛玉,有林黛玉,林妹妹,林丫頭等等。很多人如果不把這些考慮在內,就容易導致錯誤的結果。不得不說,寶玉是絕對的主角。人們...

好了歌 紅樓夢

世人都曉神仙好,只有功名忘不了!古今將相在何方?荒塚一堆草沒了!世人都曉神仙好,只有金銀忘不了!終朝只恨聚無多,及到多時眼閉了!世人都曉神仙好,只有姣妻忘不了!君生日日說恩情,君死又隨人去了!世人都曉神仙好,只有兒孫忘不了!痴心父母古來多,孝順兒孫誰見了?甄士隱 好了歌 陋室空堂,當年笏滿床!衰草枯...