import jieba
txt =
open
(r'g:\txt\全面深化金融供給側結構性改革.txt'
,'r'
,encoding=
'utf-8'
).read(
)words =jieba.lcut(txt)
# 精準切詞
count=
for word in words:
iflen
(word)==1
:continue
else
: count[word]
=count.get(word,0)
+1result =
sorted
(count.items(
),key=
lambda x:x[1]
,reverse=
true
)for i in
range(20
):word,count=result[i]
print
(word,
':',count)
金融 : 19
服務 : 9
積極 : 9
金融風險 : 8
經濟 : 7
發展 : 7
制度 : 7
金融業 : 6
發力 : 6
優化 : 6
機構 : 6
投資者 : 6
風險 : 5
金融服務 : 5
實體 : 5
國內 : 4
融資 : 4
三是 : 4
結構 : 4
提公升 : 4
統計文章詞頻(python實現)
統計出文章重複詞語是進行文字分析的重要一步,從詞頻能夠概要的分析文章內容。2.建立用於詞頻計算的空字典 3.對文字的每一行計算詞頻 4.從字典中獲取資料對到列表中 5.對列表中的資料交換位置,並排序 6.輸出結果 2.網上下來的英文文章可能有一些不是utf 8編碼,並且文章中有一些字元包含一些格式符...
統計文章內詞頻率
import collections target str the tragedy of romeo and juliet with open 羅密歐與朱麗葉 英文版 莎士比亞.txt encoding utf 8 as file txts file.read 用 split 將單詞利用空格切分開 ...
英文文章的詞頻統計
今天去面試,被問到如何實現詞頻統計,因為之前都是直接呼叫value counts 函式統計,在被要求不用該函式實現統計,一緊張就卡殼了,回到家大概自己想了一下,怎麼一步步復現。實現的方法有多種,我才用的辦法是先把檔案處理成string型別,然後string處理函式 讀入檔案並處理成文字 defrea...