分析:
1. 讀取**,以讀的形式開啟
with open('檔名.txt
','r
',encoding='
utf8
') as f:
str = f.read()
2. 切割**
ret = jieba.lcut(str)
3. 統計所有詞語出現次數 --> 準備乙個字典
dic ={}for word in
ret:
if len(word) == 1: # 去掉名字為乙個字的
continue
dic[word] = dic.get(word, 0) + 1
準備乙個多餘稱呼的列表
excluedes = ["諸葛亮","
臥龍","
玄德","
關公","
丞相",...]
如果文中某個人物有多個稱呼時,應將多個稱呼疊加到某乙個稱呼上,再將多餘的刪除
dic['關羽'] = dic['
關羽'] + dic['
美髯公'] + dic['
關公'] + dic['
關雲長'] + dic['雲長'
]for i in
excluedes:
del dic[i]
4. 對字典進行排序,公升序
lis =list(dic.items())lis.sort(key=lambda x:x[1],reverse=true)
5. 取出出現次數前十的資料
for i in range(10):print(lis[i][0])
利用jieba分詞分析小說一
人物名字的txt檔案。中文停用詞txt檔案。安裝好jieba庫。用jieba.cut 完成分詞後統計各人物的出場次數.import jieba import pickle import jieba.analyse names all names sentence 用來儲存分詞結果 text path...
使用kafka elk 日誌分析系統出現的問題
caused by org.springframework.beans.beaninstantiationexception failed to instantiate org.springframework.boot.autoconfigure.kafka.kafkaannotationdrive...
記錄一次使用mockjs出現詭異問題
根據需要,專案引入了mock,一切就安裝就緒妥當之後,發現專案部分功能模組異常 這個功能模組使用了three的gltfloader載入器,報錯是在gltfloader裡面丟擲的 丟擲的異常 快速定位問題,發現是轉json的時候報錯 繼續看呼叫棧,找到這個引數的 發現gltfloader的原理是用原生...