world = f.read()執行結果f.close()
xiaoqu =
depart = ''',.?":!'''
for c in depart:
world = world.replace(c,' ')
wordlist = world.lower().split()
worddict = {}
wordset = set(wordlist) - xiaoqu
for a in wordset:
worddict[a] = wordlist.count(a)
dictlist = list(worddict.items())
dictlist.sort(key=lambda x:x[1], reverse=true)
for i in range(20):
print(dictlist[i])
2.中文詞頻統計
從檔案讀取待分析文字。
news = open('gzccnews.txt','r',encoding = 'utf-8')
安裝與使用jieba進行中文分詞。
pip install jieba
import jieba
list(jieba.lcut(news))
生成詞頻統計
排序排除語法型詞彙,代詞、冠詞、連詞
輸出詞頻最大top20(或把結果存放到檔案裡)
# -*- codding: utf-8 -*-# -*- author: wf -*-
import jieba
f = open('hongloumeng.txt','r',encoding='utf-8') #將文字放在同等的路徑下,以檔案的方式讀出來
hongloumeng = f.read()
f.close()
depart = '''?":「。」.!'《》''' #用迴圈列表,用空格來代替,.?":!標點符號
for c in depart:
hongloumeng = hongloumeng.replace(c,' ')
hongloumenglist = list(jieba.cut(hongloumeng))
paichu = [' ','了','的','我','\n','他','道', '你','也','是','又','著','去','來', '在','都','不',
'雖','為','卻','那','亦','之','將','這','便','則','只','但','乃','再','因','得','此','與']
hongloumengdict = {} #生成乙個空字典
for a in hongloumenglist:
hongloumengdict[a] = hongloumengdict.get(a,0)+1
for a in paichu:
del (hongloumengdict[a]);
dictlist = list(hongloumengdict.items())
dictlist.sort(key=lambda x:x[1], reverse=true)
f = open('hongloumengcount.txt','a')
for i in range(20): # 輸出前20個
綜合練習 詞頻統計
綜合練習 詞頻統計預處理 將所有,等分隔符全部替換為空格 將所有大寫轉換為小寫 生成單詞列表 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻最大top20 將分析物件存為utf 8編碼的檔案,通過檔案讀取的方式獲得詞頻分析內容。從記事本長讀取檔案 f open news.txt r e...
綜合練習 詞頻統計
song twinkle,twinkle,little star,how i wonder what you are.up above the world so high,like a diamond in the sky.twinkle,twinkle,little star,how i wond...
綜合練習 詞頻統計
綜合練習 詞頻統計預處理 將所有,等分隔符全部替換為空格 將所有大寫轉換為小寫 生成單詞列表 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻最大top20 將分析物件存為utf 8編碼的檔案,通過檔案讀取的方式獲得詞頻分析內容。f open news.txt r s f.read f....