import sys, os, re
def count_words(text):
# !num !char -> ' '
text = re.sub("\w+", " ", text)
# number -> ' '
text = re.sub("[0-9]", " ", text)
# shrink whitespace
text = re.sub("\s+", " ", text)
return text.count(' ')
def getfiletext(file):
file = open(file, 'rb')
textb = file.read()
file.close()
# ignore gbk
textb = textb.decode('gbk', 'ignore').encode('utf-8')
# bytes -> str
text = bytes.decode(textb, 'utf-8')
return text
def main():
for argv in sys.argv[1:]:
#print(argv)
print (count_words(getfiletext(argv)))
if __name__ == "__main__":
main()
最近開始sss閱讀法,想看自己看過多少英文單詞了,心血來潮用python寫了個
主要利用 正則 替換,不是很準確,特別有亂碼的時候,精度99.9%吧
反正是大概,無所謂啦
英文單詞詞頻統計
英文單詞詞頻統計 問題描述 做乙個詞頻統計程式,該程式具有以下功能 1 可匯入任意英文文字檔案 2 統計該英文檔案中單詞數和各單詞出現的頻率 次數 並能將單詞按字典順序輸出。3 將單詞及頻率寫入檔案。本次英文單詞的詞頻統計程式的設計過程中,使用了檔案的相關操作 檔案的讀與寫 在檔案中錄入資料,程式以...
統計英文單詞個數
給出一篇英文文章,現在需要統計文章 現英文單詞的數量。輸入格式 第一行乙個t,代表資料組數 對於每組資料,第一行乙個n,代表文章中單詞的個數,其後n行每行乙個只包含小寫字母的長度為1到10的字串 輸出格式 每組資料輸出若干行,每行輸出單詞以及它出現的次數 中間空格隔開 不同單詞按單詞字典序從小到大輸...
Python常用英文單詞
一 互動式環境與print輸出 1 print 列印 輸出 2 coding 編碼 3 syntax 語法 4 error 錯誤 5 invalid 無效 6 identifier 名稱 識別符號 7 character 字元 二 字串的操作 1 user 使用者 2 name 姓名 名稱 3 at...