用python實現英文詞頻統計

2021-10-23 06:25:09 字數 2575 閱讀 7358

1.字串的內建函式的呼叫一般不改變原字串,而列表的內建函式的呼叫一般會改變列表。

trystr =

'mytry'

print

(trystr.upper())

#mytry

print

(trystr)

#mytry

#要想改變原字串應該使用如下**

trystr = trystr.upper(

)trylist =[2

,6,7

,1,0

]print

(trylist.sort())

#none

print

(trylist)

#[0, 1, 7, 6, 2]

#注意如下的呼叫是錯誤的

trylist = trylist.sort(

)

2.要想把字典轉化為列表注意是想把鍵、值還是鍵值對轉化為列表。

try_dict =

try_list =

list

(try_dict.items())

print

(try_list)

#[('a', 1), ('b', 2), ('c', 3)]

try_list =

list

(try_dict.keys())

print

(try_list)

#['a', 'b', 'c']

try_list =

list

(try_dict.values())

print

(try_list)

#[1, 2, 3]

3.不確定索引的元素是否存在,用.get

try_dict =

print

(try_dict.get(

'a',

'無'))#1

print

(try_dict.get(

'd',

'無')

)#無

4.對非簡單的列表進行排序,要用到lambda表示式

try_list =[[

3,23,

4],[

11,6,

8],[

9,7,

2]]#按照第乙個元素的大小排序

try_list.sort(key =

lambda x:x[0]

)print

(try_list)

#[[3, 23, 4], [9, 7, 2], [11, 6, 8]]

#按照第二個元素的大小排序

try_list.sort(key =

lambda x:x[1]

)print

(try_list)

#[[11, 6, 8], [9, 7, 2], [3, 23, 4]]

#按照第三個元素的大小排序

try_list.sort(key =

lambda x:x[2]

)print

(try_list)

#[[9, 7, 2], [3, 23, 4], [11, 6, 8]]

#封裝獲得文字的函式

defget_text

(file_name)

:with

open

(file_name,

'r')

as fr:

text = fr.read(

) text = text.lower(

)#注意會有大小寫之分,這裡不區分大小寫

delete_ch =

['\n'

,':'

,'!'

,'?'

,','

,'.'

]#要刪除的標點

for ch in delete_ch:

text = text.replace(ch,

' ')

return text

file_name =

'hamlet.txt'

#要處理的檔案

text = get_text(file_name)

text = text.split(

)#注意!不能有split(' ')

count_dict =

#統計每個單詞的個數

for i in text:

count_dict[i]

= count_dict.get(i,0)

+1#轉化成列表的形式

count_dict =

list

(count_dict.items())

count_dict.sort(key =

lambda x:x[1]

, reverse =

true

)for i in

range(10

):word,count = count_dict[i]

print

(word,count)

英文詞頻統計

詞頻統計預處理 將所有,等分隔符全部替換為空格 將所有大寫轉換為小寫 生成單詞列表 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻最大top10 word lately,i ve been,i ve been losing sleep dreaming about the things...

使用Python進行英文詞頻統計

1.讀取檔案,通過lower replace 函式將所有單詞統一為小寫,並用空格替換特殊字元。def gettext txt open piao.txt r errors ignore read txt txt.lower for ch in txt txt.replace ch,return tx...

Python中文詞頻統計

以下是關於 的中文詞頻統計 這裡有三個檔案,分別為novel.txt punctuation.txt meaningless.txt。這三個是 文字 特殊符號和無意義詞 python 統計詞頻如下 import jieba jieba中文分詞庫 從檔案讀入 with open novel.txt r...