python 統計 英文 單詞

2021-06-18 19:14:49 字數 851 閱讀 6812

import sys, os, re

def count_words(text):

# !num !char -> ' '

text = re.sub("\w+", " ", text)

# number -> ' '

text = re.sub("[0-9]", " ", text)

# shrink whitespace

text = re.sub("\s+", " ", text)

return text.count(' ')

def getfiletext(file):

file = open(file, 'rb')

textb = file.read()

file.close()

# ignore gbk

textb = textb.decode('gbk', 'ignore').encode('utf-8')

# bytes -> str

text = bytes.decode(textb, 'utf-8')

return text

def main():

for argv in sys.argv[1:]:

#print(argv)

print (count_words(getfiletext(argv)))

if __name__ == "__main__":

main()

最近開始sss閱讀法,想看自己看過多少英文單詞了,心血來潮用python寫了個

主要利用 正則 替換,不是很準確,特別有亂碼的時候,精度99.9%吧

反正是大概,無所謂啦

英文單詞詞頻統計

英文單詞詞頻統計 問題描述 做乙個詞頻統計程式,該程式具有以下功能 1 可匯入任意英文文字檔案 2 統計該英文檔案中單詞數和各單詞出現的頻率 次數 並能將單詞按字典順序輸出。3 將單詞及頻率寫入檔案。本次英文單詞的詞頻統計程式的設計過程中,使用了檔案的相關操作 檔案的讀與寫 在檔案中錄入資料,程式以...

統計英文單詞個數

給出一篇英文文章,現在需要統計文章 現英文單詞的數量。輸入格式 第一行乙個t,代表資料組數 對於每組資料,第一行乙個n,代表文章中單詞的個數,其後n行每行乙個只包含小寫字母的長度為1到10的字串 輸出格式 每組資料輸出若干行,每行輸出單詞以及它出現的次數 中間空格隔開 不同單詞按單詞字典序從小到大輸...

Python常用英文單詞

一 互動式環境與print輸出 1 print 列印 輸出 2 coding 編碼 3 syntax 語法 4 error 錯誤 5 invalid 無效 6 identifier 名稱 識別符號 7 character 字元 二 字串的操作 1 user 使用者 2 name 姓名 名稱 3 at...