綜合練習 詞頻統計

2022-06-02 05:54:14 字數 1913 閱讀 7810

world = f.read()

f.close()

xiaoqu =

depart = ''',.?":!'''

for c in depart:

world = world.replace(c,' ')

wordlist = world.lower().split()

worddict = {}

wordset = set(wordlist) - xiaoqu

for a in wordset:

worddict[a] = wordlist.count(a)

dictlist = list(worddict.items())

dictlist.sort(key=lambda x:x[1], reverse=true)

for i in range(20):

print(dictlist[i])

執行結果

2.中文詞頻統計

從檔案讀取待分析文字。

news = open('gzccnews.txt','r',encoding = 'utf-8')

安裝與使用jieba進行中文分詞。

pip install jieba

import jieba

list(jieba.lcut(news))

生成詞頻統計

排序排除語法型詞彙,代詞、冠詞、連詞

輸出詞頻最大top20(或把結果存放到檔案裡)

# -*- codding: utf-8 -*-

# -*- author: wf -*-

import jieba

f = open('hongloumeng.txt','r',encoding='utf-8') #將文字放在同等的路徑下,以檔案的方式讀出來

hongloumeng = f.read()

f.close()

depart = '''?":「。」.!'《》''' #用迴圈列表,用空格來代替,.?":!標點符號

for c in depart:

hongloumeng = hongloumeng.replace(c,' ')

hongloumenglist = list(jieba.cut(hongloumeng))

paichu = [' ','了','的','我','\n','他','道', '你','也','是','又','著','去','來', '在','都','不',

'雖','為','卻','那','亦','之','將','這','便','則','只','但','乃','再','因','得','此','與']

hongloumengdict = {} #生成乙個空字典

for a in hongloumenglist:

hongloumengdict[a] = hongloumengdict.get(a,0)+1

for a in paichu:

del (hongloumengdict[a]);

dictlist = list(hongloumengdict.items())

dictlist.sort(key=lambda x:x[1], reverse=true)

f = open('hongloumengcount.txt','a')

for i in range(20): # 輸出前20個

綜合練習 詞頻統計

綜合練習 詞頻統計預處理 將所有,等分隔符全部替換為空格 將所有大寫轉換為小寫 生成單詞列表 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻最大top20 將分析物件存為utf 8編碼的檔案,通過檔案讀取的方式獲得詞頻分析內容。從記事本長讀取檔案 f open news.txt r e...

綜合練習 詞頻統計

song twinkle,twinkle,little star,how i wonder what you are.up above the world so high,like a diamond in the sky.twinkle,twinkle,little star,how i wond...

綜合練習 詞頻統計

綜合練習 詞頻統計預處理 將所有,等分隔符全部替換為空格 將所有大寫轉換為小寫 生成單詞列表 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻最大top20 將分析物件存為utf 8編碼的檔案,通過檔案讀取的方式獲得詞頻分析內容。f open news.txt r s f.read f....