python統計字頻

2021-09-27 11:34:43 字數 1287 閱讀 7481

"""

author:魏振東

data:2019.09.19

func:求一段文字中的字頻

"""import re # 正規表示式庫

from collections import counter

# 讀取檔案

fn =

open

('doc/text.txt'

,'rt'

)# 開啟檔案

string_data = fn.read(

)# 讀出整個檔案

fn.close(

)# 關閉檔案

# 文字預處理

pattern = re.

compile

(u'\t|\n|\.|-|:|;|\)|\(|\?|"'

)# 定義正規表示式匹配模式

string_data = re.sub(pattern,

'', string_data)

# 將符合模式的字元去除

#輸出檢查

#print(string_data)

# #統計單詞

##p=string_data.split()

# print(p)

# result = {}

## for char in p:

# if char not in result:

# result[char] = 1

# else:

# result[char]+=1

## #輸出檢查

# print(result)

## #去除中文和數字只保留字母

# result=

## #排序輸出

# for k in sorted(result,key=result.__getitem__,reverse=true):

# print(k,result[k])

#對每個字元進行統計

result=

dict

(counter(string_data)

)#去除中文和數字只保留字母

result=

#輸出檢查

# print(result)

#排序輸出

for k in

sorted

(result,key=result.__getitem__,reverse=

true):

print

(k,result[k]

)

python字頻統計

中文資訊處理課,老師讓寫個字頻統計的程式,我能夠寫出來,但是執行速度很慢。希望路過的大神給我提點意見。import os import os.path import codecs import pandas import numpy import jieba 建立詞庫 corpos pandas.d...

漢字字頻統計程式(Python版)

用python寫了乙個漢字詞頻統計程式,針對已經分好詞的文字。python 3.4.3 功能 統計文字中的詞頻。缺陷 標點符號的頻數也會計算在內。with open test.txt mode r encoding utf 8 as infile dict 建立乙個空字典 word 空字串以便於連線...

Perl 中文 字頻統計 Perl 例子

usr bin perl 如果在文字中使用大字符集,那麼將文字儲存成utf 8格式。並將下面的注釋標誌去掉,同時給後面的簡體中文編碼語句加注釋標記 use utf8 使用簡體中文編碼,否則拆分單個漢字會出錯。use encoding euc cn 如果不提供待統計文字,退出程式 die if arg...