使用Python快速統計關鍵詞及其詞頻

1.通過jieba庫分詞獲取所有的詞語列表；

2.計算列表裡出現詞語及其對應的頻次，儲存為字典；

3.刪除字典中鍵為無關且頻次高的詞語的鍵值對；

4.對字典裡的詞語按照頻次進行排序；

5.輸出頻次前五的詞語及其頻次；

如果沒有安裝 jieba 庫，需要使用 cmd 進入命令提示符視窗，通過 pip install jieba 進行安裝。

import jieba
file
=open
("sample.txt"
,"r"
, encoding=
'utf-8'
)#此處需開啟txt格式且編碼為utf-8的文字
txt =
file
.read(
)words = jieba.lcut(txt)
# 使用jieba進行分詞，將文字分成詞語列表
count =
for word in words:
#  使用 for 迴圈遍歷每個詞語並統計個數
iflen
(word)
<2:
# 排除單個字的干擾，使得輸出結果為詞語
continue
else
:        count[word]
= count.get(word,0)
+1#如果字典裡鍵為 word 的值存在，則返回鍵的值並加一，如果不存在鍵word，則返回0再加上1
exclude =
["可以"
,"一起"
,"這樣"
]# 建立無關詞語列表
for key in
list
(count.keys())
:# 遍歷字典的所有鍵，即所有word
if key in exclude:
del count[key]
#  刪除字典中鍵為無關詞語的鍵值對
list
=list
(count.items())
# 將字典的所有鍵值對轉化為列表
list
.sort(key=
lambda x: x[1]
, reverse=
true
)# 對列表按照詞頻從大到小的順序排序
for i in
range(5
):#   此處統計排名前五的單詞，所以range(5)
word, number =
list
[i]print
("關鍵字：頻次："
.format
(word, number)
)

使用python提取關鍵詞

需要記錄的是freqdist的成員函式 plot n 繪製出現次數最多的前n項 tabulate n 該方法接受乙個數字n作為引數，會以的方式列印出現次數最多的前n項 most common n 該方法接受乙個數字n作為引數，返回出現次數最多的前n項列表 hapaxes 返回乙個低頻項列表 max...

python提取關鍵詞

value 34895348587575 value 34895348587575 abababbaba value 1.290934 coding utf 8 created on sun aug 16 20 57 31 2020 author jwy coding utf 8 version p...

python關鍵詞大全 python的關鍵字有哪些

在python中若想查詢python中有哪些關鍵字。可以先導入keyword模組import keyword 匯入關鍵字模組 print keyword.kwlist 查詢所有關鍵字查詢結果 false none true and as assert break class continue de...

使用Python快速統計關鍵詞及其詞頻

使用python提取關鍵詞

python提取關鍵詞

python關鍵詞大全 python的關鍵字有哪些

相關推薦