使用Python快速統計關鍵詞及其詞頻

2021-09-10 09:46:01 字數 1375 閱讀 4297

1.通過jieba庫分詞獲取所有的詞語列表;

2.計算列表裡出現詞語及其對應的頻次,儲存為字典;

3.刪除字典中鍵為無關且頻次高的詞語的鍵值對;

4.對字典裡的詞語按照頻次進行排序;

5.輸出頻次前五的詞語及其頻次;

如果沒有安裝 jieba 庫,需要使用 cmd 進入命令提示符視窗,通過 pip install jieba 進行安裝。

import jieba

file

=open

("sample.txt"

,"r"

, encoding=

'utf-8'

)#此處需開啟txt格式且編碼為utf-8的文字

txt =

file

.read(

)words = jieba.lcut(txt)

# 使用jieba進行分詞,將文字分成詞語列表

count =

for word in words:

# 使用 for 迴圈遍歷每個詞語並統計個數

iflen

(word)

<2:

# 排除單個字的干擾,使得輸出結果為詞語

continue

else

: count[word]

= count.get(word,0)

+1#如果字典裡鍵為 word 的值存在,則返回鍵的值並加一,如果不存在鍵word,則返回0再加上1

exclude =

["可以"

,"一起"

,"這樣"

]# 建立無關詞語列表

for key in

list

(count.keys())

:# 遍歷字典的所有鍵,即所有word

if key in exclude:

del count[key]

# 刪除字典中鍵為無關詞語的鍵值對

list

=list

(count.items())

# 將字典的所有鍵值對轉化為列表

list

.sort(key=

lambda x: x[1]

, reverse=

true

)# 對列表按照詞頻從大到小的順序排序

for i in

range(5

):# 此處統計排名前五的單詞,所以range(5)

word, number =

list

[i]print

("關鍵字:頻次:"

.format

(word, number)

)

使用python提取關鍵詞

需要記錄的是freqdist的成員函式 plot n 繪製出現次數最多的前n項 tabulate n 該方法接受乙個數字n作為引數,會以 的方式列印出現次數最多的前n項 most common n 該方法接受乙個數字n作為引數,返回出現次數最多的前n項列表 hapaxes 返回乙個低頻項列表 max...

python提取關鍵詞

value 34895348587575 value 34895348587575 abababbaba value 1.290934 coding utf 8 created on sun aug 16 20 57 31 2020 author jwy coding utf 8 version p...

python關鍵詞大全 python的關鍵字有哪些

在python中若想查詢python中有哪些關鍵字。可以先導入keyword模組import keyword 匯入關鍵字模組 print keyword.kwlist 查詢所有關鍵字 查詢結果 false none true and as assert break class continue de...