1.通過jieba庫分詞獲取所有的詞語列表;
2.計算列表裡出現詞語及其對應的頻次,儲存為字典;
3.刪除字典中鍵為無關且頻次高的詞語的鍵值對;
4.對字典裡的詞語按照頻次進行排序;
5.輸出頻次前五的詞語及其頻次;
如果沒有安裝 jieba 庫,需要使用 cmd 進入命令提示符視窗,通過 pip install jieba 進行安裝。
import jieba
file
=open
("sample.txt"
,"r"
, encoding=
'utf-8'
)#此處需開啟txt格式且編碼為utf-8的文字
txt =
file
.read(
)words = jieba.lcut(txt)
# 使用jieba進行分詞,將文字分成詞語列表
count =
for word in words:
# 使用 for 迴圈遍歷每個詞語並統計個數
iflen
(word)
<2:
# 排除單個字的干擾,使得輸出結果為詞語
continue
else
: count[word]
= count.get(word,0)
+1#如果字典裡鍵為 word 的值存在,則返回鍵的值並加一,如果不存在鍵word,則返回0再加上1
exclude =
["可以"
,"一起"
,"這樣"
]# 建立無關詞語列表
for key in
list
(count.keys())
:# 遍歷字典的所有鍵,即所有word
if key in exclude:
del count[key]
# 刪除字典中鍵為無關詞語的鍵值對
list
=list
(count.items())
# 將字典的所有鍵值對轉化為列表
list
.sort(key=
lambda x: x[1]
, reverse=
true
)# 對列表按照詞頻從大到小的順序排序
for i in
range(5
):# 此處統計排名前五的單詞,所以range(5)
word, number =
list
[i]print
("關鍵字:頻次:"
.format
(word, number)
)
使用python提取關鍵詞
需要記錄的是freqdist的成員函式 plot n 繪製出現次數最多的前n項 tabulate n 該方法接受乙個數字n作為引數,會以 的方式列印出現次數最多的前n項 most common n 該方法接受乙個數字n作為引數,返回出現次數最多的前n項列表 hapaxes 返回乙個低頻項列表 max...
python提取關鍵詞
value 34895348587575 value 34895348587575 abababbaba value 1.290934 coding utf 8 created on sun aug 16 20 57 31 2020 author jwy coding utf 8 version p...
python關鍵詞大全 python的關鍵字有哪些
在python中若想查詢python中有哪些關鍵字。可以先導入keyword模組import keyword 匯入關鍵字模組 print keyword.kwlist 查詢所有關鍵字 查詢結果 false none true and as assert break class continue de...