該案例以黨的十九大報告為例,統計報告中各個詞語出現的頻率。總體步驟為讀入文字,分詞,詞頻統計。通過觀察詞語頻率最高的幾個詞,我們就可以大致了解這份報告的主要內容。
#開啟檔案並讀取文字內容
f =open
('d:\\py_dataset\\十九大報告.txt'
,'r'
,encoding =
'utf-8'
)txt = f.read(
)#切分詞語,使用jieba分詞器
import jieba
words = jieba.lcut(txt)
#檢視總的詞語數量
print
(len
(words)
)#17961
#檢視單獨詞語的數量
print
(len
(set
(words)))
#3349
#詞頻統計,統計長度大於1的詞,因為長度為一的詞基本上都是停用詞
counts =
for word in words:
iflen
(word)
>1:
counts[word]
= counts.get(word,0)
+1#使用了字典的get方法
#將counts轉化為列**式
counts =
list
(counts.items())
#對詞頻進行排序
counts.sort(key =
lambda x:x[1]
,reverse =
true
)#列印頻率最高的前10個詞
for i in
range(10
):print
(counts[i][0
],counts[i][1
])# 發展 212
# 中國 169
# 人民 157
# 建設 148
# 社會主義 147
# 堅持 131
# 全面 90
# 國家 90
# 實現 83
# 制度 83
由上面的統計結果可以看出,「發展」、「人民」、「社會主義」、「制度」等詞語出現的頻率最高,基本上我們就了解了十九大報告主要是在論述社會主義制度建設。 PTA 詞頻統計
請編寫程式,對一段英文文字,統計其中所有不同單詞的個數,以及詞頻最大的前10 的單詞。所謂 單詞 是指由不超過80個單詞字元組成的連續字串,但長度超過15的單詞將只擷取保留前15個單詞字元。而合法的 單詞字元 為大小寫字母 數字和下劃線,其它字元均認為是單詞分隔符。輸入給出一段非空文字,最後以符號 ...
詞頻統計(上機)
include include include define error 1 define ok 0 const int word length 250 定義單個單詞最大長度 typedef int status 定義儲存單詞及其出現次數的結構體 typedef struct nodewordnod...
hamlet詞頻統計
part2 code 10.1calhamlet.py def gettext txt open hamlet.txt r read 將文字中的英文本母全部轉為小寫字母 txt txt.lower return txt hamlettxt gettext words hamlettxt.split ...