統計文章單詞出現次數

2022-06-11 17:00:14 字數 736 閱讀 3833

英文文章中的標點符號的處理,單詞大小寫的處理,再將單詞通過字典的統計出現次數,最後用sorted()排序

#利用maketrans函式將標點符號對映為空格

table = str.maketrans('

,.!"?:-

',''

)#開啟需要統計的檔案

f = open(r'

c:\python\1.txt')

file1 =f.read()

f.close()

#根據maketrans的對映將文章中的內容進行處理,對映中的標點符號替換為空格,並且全部小寫

f1 =file1.translate(table).lower()

#將文章中的單詞分隔開來,存在陣列之中

wordlist =f1.split(none)

#建立乙個字典,統計每個單詞出現的次數

d1 ={}

for word in

wordlist:

d1[word] = d1.get(word,0) +1

#通過sorted函式排序,列印出前三

itemli =sorted(d1.items(), key=lambda x:x[1],reverse=true)

print (itemli[

0:3])

執行結果如下:[('

the', 23), ('

to', 13), ('

of', 11)]

統計文章中單詞出現的次數(續)

符號問題的處理 void filtrate word string word 處理字串中的標點符號 順便把單詞中的大小寫也統一一下,很簡單 void strip cap string word 將單詞中的大寫字母轉化成小寫字母 兩處處理都用到string類的函式find first of 有幾個過載...

統計文章內各個單詞出現的次數

演算法的思路是 從頭到尾遍歷檔案,從檔案中讀取遍歷到的每乙個單詞。把遍歷到的單詞放到hash map中,並統計這個單詞出現的次數。遍歷hash map,將遍歷到的單詞的出現次數放到優先順序佇列中。當優先順序佇列的元素個數超過k個時就把元素級別最低的那個元素從佇列中取出,這樣始終保持佇列的元素是k個。...

python統計文章單詞次數

題目是這樣的 你有乙個目錄,放了你乙個月的日記,都是 txt,為了避免分詞的問題,假設內容都是英文,請統計出你認為每篇日記最重要的詞。其實就是統計一篇文章出現最多的單詞,但是要去除那些常見的連詞 介詞和謂語動詞等,coding utf 8 import collections import re i...