計算文字中每個單詞的使用頻率,並從高到低進行排序
from string import punctuation
#開啟資料匯入
text =
open
('text.txt'
)def
count
(text)
: dic =
dict()
#建立新字典
for line in text:
word = line.split(
)#將字串分割為list,預設分隔符為空格
for item in word:
item = item.strip(punctuation)
#資料處理,將標點去除
word_low = item.lower(
)#統一轉為小寫字母進行比較
if word_low in dic:
dic[word_low]+=1
else
: dic[word_low]=1
return
sorted
(dic.items(
),key =
lambda items:items[1]
,reverse =
true
#按照字典的值的大小進行排序,從大到小
輸出例子:
[(『the』, 186),
(『of』, 120),
(『project』, 87),
(『to』, 82),
(『ja』, 82),
(『or』, 78),
(『you』, 73),
(『and』, 70)]
統計文字中每個單詞的序列 和 出現次數
統計文字中每個單詞的序列 使用stl 統計文字中出現的單詞的序列 include include include include using namespace std int main 輸出 for it distinctwordset.begin it distinctwordset.end i...
用hash表統計文字檔案中每個單詞出現的頻率
閒來無事,敲兩行 解解愁。今天介紹一種用自已建立的hash表 hash鍊錶 來統計乙個輸入文字檔案中每個單詞出現的頻率,hash表的構造詳見 程式設計珠璣 第15章。一 主體思路 1 建立乙個hash表 a hash函式 除留取餘法,h key key size 2 讀取文字檔案word.txt,每...
文字中的單詞切割
include include char word 100 int isdelim char c int getword char in,char w,int p else else word wordpos 0 printf s word return i len 1 i int main whi...