基礎python統計詞頻,未考慮到刪除停用詞
# 詞頻統計
defgettext()
:#處理檔案
txt=
open
("english.txt"
,"r"
).read(
) txt = txt.lower(
)#將英文全部變為小寫
for ch in
'!"#$&*+,-./:;<=>?@[\\]^_{}|'
: txt = txt.replace(ch,
" ")
return txt
mytxt = gettext(
)words = mytxt.split(
)#將字元分割為列表
counts=
#新建乙個空字典
for word in words:
counts[word]
= counts.get(word,0)
+1items =
list
(counts.items())
#將字典中的鍵值對變為列表
items.sort(key=
lambda x:x[1]
,reverse=
true
)#按詞語個數從大往小排序
for i in
range(20
):#列印詞頻在前20位的單詞
word,count = items[i]
print(""
.format
(word,count)
)
Python進行詞頻統計
1.測試文字 test.txt 2.測試文字內容 this is just for test 這只是用來測試的 this is just for test 這只是用來測試的 3.及解釋如下 import jieba def doc2matrix doc x open doc,r y x.read 讀...
用Python進行詞頻統計
def gettext txt open hamlet.txt r read 讀取檔案 txt txt.lower 把文字全部變為小寫 for ch in 把特殊字元變為空格 txt txt.replace ch,return txt hamlettext gettext words hamlett...
Python分詞並進行詞頻統計
方法一 strs 1 大專以上學歷,年齡在18 28歲之間 2 計算機相關專業 自動化 測控 生儀 機電 數學 物理等等理工科專業優先 3 熱愛軟體開發事業 有較強的邏輯思維能力,對it行業抱有濃厚的興趣並有志於在it行業長遠發展,創造個人價值 非銷售 非保險崗位 4 有無相關經驗均可,歡迎優秀的應...