使用jieba分析小說人物出現次數

2022-08-31 17:36:12 字數 942 閱讀 7098

分析:

1. 讀取**,以讀的形式開啟

with open('

檔名.txt

','r

',encoding='

utf8

') as f:

str = f.read()

2. 切割**

ret = jieba.lcut(str)

3. 統計所有詞語出現次數 --> 準備乙個字典

dic ={}

for word in

ret:

if len(word) == 1: # 去掉名字為乙個字的

continue

dic[word] = dic.get(word, 0) + 1

準備乙個多餘稱呼的列表

excluedes = ["

諸葛亮","

臥龍","

玄德","

關公","

丞相",...]

如果文中某個人物有多個稱呼時,應將多個稱呼疊加到某乙個稱呼上,再將多餘的刪除

dic['

關羽'] = dic['

關羽'] + dic['

美髯公'] + dic['

關公'] + dic['

關雲長'] + dic['雲長'

]for i in

excluedes:

del dic[i]

4. 對字典進行排序,公升序

lis =list(dic.items())

lis.sort(key=lambda x:x[1],reverse=true)

5. 取出出現次數前十的資料

for i in range(10):

print(lis[i][0])

利用jieba分詞分析小說一

人物名字的txt檔案。中文停用詞txt檔案。安裝好jieba庫。用jieba.cut 完成分詞後統計各人物的出場次數.import jieba import pickle import jieba.analyse names all names sentence 用來儲存分詞結果 text path...

使用kafka elk 日誌分析系統出現的問題

caused by org.springframework.beans.beaninstantiationexception failed to instantiate org.springframework.boot.autoconfigure.kafka.kafkaannotationdrive...

記錄一次使用mockjs出現詭異問題

根據需要,專案引入了mock,一切就安裝就緒妥當之後,發現專案部分功能模組異常 這個功能模組使用了three的gltfloader載入器,報錯是在gltfloader裡面丟擲的 丟擲的異常 快速定位問題,發現是轉json的時候報錯 繼續看呼叫棧,找到這個引數的 發現gltfloader的原理是用原生...