英文文章中的標點符號的處理,單詞大小寫的處理,再將單詞通過字典的統計出現次數,最後用sorted()排序
#利用maketrans函式將標點符號對映為空格table = str.maketrans('
,.!"?:-
',''
)#開啟需要統計的檔案
f = open(r'
c:\python\1.txt')
file1 =f.read()
f.close()
#根據maketrans的對映將文章中的內容進行處理,對映中的標點符號替換為空格,並且全部小寫
f1 =file1.translate(table).lower()
#將文章中的單詞分隔開來,存在陣列之中
wordlist =f1.split(none)
#建立乙個字典,統計每個單詞出現的次數
d1 ={}
for word in
wordlist:
d1[word] = d1.get(word,0) +1
#通過sorted函式排序,列印出前三
itemli =sorted(d1.items(), key=lambda x:x[1],reverse=true)
print (itemli[
0:3])
執行結果如下:[('
the', 23), ('
to', 13), ('
of', 11)]
統計文章中單詞出現的次數(續)
符號問題的處理 void filtrate word string word 處理字串中的標點符號 順便把單詞中的大小寫也統一一下,很簡單 void strip cap string word 將單詞中的大寫字母轉化成小寫字母 兩處處理都用到string類的函式find first of 有幾個過載...
統計文章內各個單詞出現的次數
演算法的思路是 從頭到尾遍歷檔案,從檔案中讀取遍歷到的每乙個單詞。把遍歷到的單詞放到hash map中,並統計這個單詞出現的次數。遍歷hash map,將遍歷到的單詞的出現次數放到優先順序佇列中。當優先順序佇列的元素個數超過k個時就把元素級別最低的那個元素從佇列中取出,這樣始終保持佇列的元素是k個。...
python統計文章單詞次數
題目是這樣的 你有乙個目錄,放了你乙個月的日記,都是 txt,為了避免分詞的問題,假設內容都是英文,請統計出你認為每篇日記最重要的詞。其實就是統計一篇文章出現最多的單詞,但是要去除那些常見的連詞 介詞和謂語動詞等,coding utf 8 import collections import re i...