綜合練習詞頻統計

綜合練習

詞頻統計預處理

將所有,.？！』:等分隔符全部替換為空格

將所有大寫轉換為小寫

生成單詞列表

生成詞頻統計

排序排除語法型詞彙，代詞、冠詞、連詞

輸出詞頻最大top20

將分析物件存為utf-8編碼的檔案，通過檔案讀取的方式獲得詞頻分析內容。

f=open('news.txt','r')
s=f.read()
f.close()
s1='''.?!'",'''
exclude=
for c in s1:
s=s.replace(c," ")
strlist=s.lower().split()
strdict={}
#通過遍歷列表建立字典
# for m in strlist:
#     strdict[m]=strdict.get(m,0)+1
# 通過遍歷集合建立字典
2.中文詞頻統計
從檔案讀取待分析文字。
news = open('gzccnews.txt','r',encoding = 'utf-8')
安裝與使用jieba進行中文分詞。
pip install jieba
import jieba
list(jieba.lcut(news))
生成詞頻統計
排序排除語法型詞彙，代詞、冠詞、連詞
輸出詞頻最大top20（或把結果存放到檔案裡）
import jieba
n= open('news.txt','r',encoding='utf-8')
news=n.read()
n.close()
news = list(jieba.cut(news))
s= newsset=set(news)-s
exclude=
newsset=newsset-exclude
strdict = {}
# 通過遍歷列表建立字典
				綜合練習 詞頻統計
綜合練習 詞頻統計預處理 將所有,等分隔符全部替換為空格 將所有大寫轉換為小寫 生成單詞列表 生成詞頻統計 排序排除語法型詞彙，代詞 冠詞 連詞 輸出詞頻最大top20 將分析物件存為utf 8編碼的檔案，通過檔案讀取的方式獲得詞頻分析內容。從記事本長讀取檔案 f open news.txt r e...
				綜合練習 詞頻統計
world f.read f.close xiaoqu depart for c in depart world world.replace c,wordlist world.lower split worddict wordset set wordlist xiaoqu for a in word...
				綜合練習 詞頻統計
song twinkle,twinkle,little star,how i wonder what you are.up above the world so high,like a diamond in the sky.twinkle,twinkle,little star,how i wond...

綜合練習 詞頻統計

綜合練習 詞頻統計

綜合練習 詞頻統計

綜合練習 詞頻統計

相關推薦

綜合練習詞頻統計

綜合練習詞頻統計

綜合練習詞頻統計

綜合練習詞頻統計