"""
author:魏振東
data:2019.09.19
func:求一段文字中的字頻
"""import re # 正規表示式庫
from collections import counter
# 讀取檔案
fn =
open
('doc/text.txt'
,'rt'
)# 開啟檔案
string_data = fn.read(
)# 讀出整個檔案
fn.close(
)# 關閉檔案
# 文字預處理
pattern = re.
compile
(u'\t|\n|\.|-|:|;|\)|\(|\?|"'
)# 定義正規表示式匹配模式
string_data = re.sub(pattern,
'', string_data)
# 將符合模式的字元去除
#輸出檢查
#print(string_data)
# #統計單詞
##p=string_data.split()
# print(p)
# result = {}
## for char in p:
# if char not in result:
# result[char] = 1
# else:
# result[char]+=1
## #輸出檢查
# print(result)
## #去除中文和數字只保留字母
# result=
## #排序輸出
# for k in sorted(result,key=result.__getitem__,reverse=true):
# print(k,result[k])
#對每個字元進行統計
result=
dict
(counter(string_data)
)#去除中文和數字只保留字母
result=
#輸出檢查
# print(result)
#排序輸出
for k in
sorted
(result,key=result.__getitem__,reverse=
true):
print
(k,result[k]
)
python字頻統計
中文資訊處理課,老師讓寫個字頻統計的程式,我能夠寫出來,但是執行速度很慢。希望路過的大神給我提點意見。import os import os.path import codecs import pandas import numpy import jieba 建立詞庫 corpos pandas.d...
漢字字頻統計程式(Python版)
用python寫了乙個漢字詞頻統計程式,針對已經分好詞的文字。python 3.4.3 功能 統計文字中的詞頻。缺陷 標點符號的頻數也會計算在內。with open test.txt mode r encoding utf 8 as infile dict 建立乙個空字典 word 空字串以便於連線...
Perl 中文 字頻統計 Perl 例子
usr bin perl 如果在文字中使用大字符集,那麼將文字儲存成utf 8格式。並將下面的注釋標誌去掉,同時給後面的簡體中文編碼語句加注釋標記 use utf8 使用簡體中文編碼,否則拆分單個漢字會出錯。use encoding euc cn 如果不提供待統計文字,退出程式 die if arg...