漢語詞頻統計

該案例以黨的十九大報告為例，統計報告中各個詞語出現的頻率。總體步驟為讀入文字，分詞，詞頻統計。通過觀察詞語頻率最高的幾個詞，我們就可以大致了解這份報告的主要內容。

#開啟檔案並讀取文字內容
f =open
('d:\\py_dataset\\十九大報告.txt'
,'r'
,encoding =
'utf-8'
)txt = f.read(
)#切分詞語，使用jieba分詞器
import jieba
words = jieba.lcut(txt)
#檢視總的詞語數量
print
(len
(words)
)#17961
#檢視單獨詞語的數量
print
(len
(set
(words)))
#3349
#詞頻統計，統計長度大於1的詞，因為長度為一的詞基本上都是停用詞
counts =
for word in words:
iflen
(word)
>1:
counts[word]
= counts.get(word,0)
+1#使用了字典的get方法
#將counts轉化為列**式
counts =
list
(counts.items())
#對詞頻進行排序
counts.sort(key =
lambda x:x[1]
,reverse =
true
)#列印頻率最高的前10個詞
for i in
range(10
):print
(counts[i][0
],counts[i][1
])# 發展 212
# 中國 169
# 人民 157
# 建設 148
# 社會主義 147
# 堅持 131
# 全面 90
# 國家 90
# 實現 83
# 制度 83

由上面的統計結果可以看出，「發展」、「人民」、「社會主義」、「制度」等詞語出現的頻率最高，基本上我們就了解了十九大報告主要是在論述社會主義制度建設。

PTA 詞頻統計

請編寫程式，對一段英文文字，統計其中所有不同單詞的個數，以及詞頻最大的前10 的單詞。所謂單詞是指由不超過80個單詞字元組成的連續字串，但長度超過15的單詞將只擷取保留前15個單詞字元。而合法的單詞字元為大小寫字母數字和下劃線，其它字元均認為是單詞分隔符。輸入給出一段非空文字，最後以符號 ...

詞頻統計（上機）

include include include define error 1 define ok 0 const int word length 250 定義單個單詞最大長度 typedef int status 定義儲存單詞及其出現次數的結構體 typedef struct nodewordnod...

hamlet詞頻統計

part2 code 10.1calhamlet.py def gettext txt open hamlet.txt r read 將文字中的英文本母全部轉為小寫字母 txt txt.lower return txt hamlettxt gettext words hamlettxt.split ...

漢語詞頻統計

PTA 詞頻統計

詞頻統計（上機）

hamlet詞頻統計

相關推薦