中文詞頻統計

中文分詞

使用jieba庫，進行中文詞頻統計，輸出top20的詞及出現次數。

排除一些無意義詞、合併同一詞。

對詞頻統計結果做簡單的解讀。

import jieba
#讀入待分析的字串
fo=open('
test.txt
','r
',encoding='
utf-8')
news=fo.read()
fo.close()
#分解提取單詞 
for i in
'''，。？！、:「」『』"
'-\n\u3000'''
:    news=str.replace(i,''
)words=list(jieba.cut(news))
#排除語法型詞彙
dic={}
exp=set(['','
。','
年','
月','
日','
電訊','
新華社','這裡'
])keys=set(words)-exp 
#建立計數字典
for i in
keys:
if(len(i)>1
):        dic[i]=words.count(i)    
items=list(dic.items()) 
#排序items.sort(key=lambda x:x[1],reverse=true)
#輸出top(20)
print(
'輸出top20:')
這則新聞主要講的是再新時期中國應創造更多具有時代精神的，反應廣大人民生活的優秀作品。
				中文詞頻統計
2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫，加入所分析物件的專業詞彙。5.生成詞頻統計 排序 排除語法型詞彙，代詞 冠詞 連詞等停用詞 輸出詞頻最大top20，把結果存放到檔案裡 源 import jieba fo open r d 三體.txt encoding ...
				中文詞頻統計
從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙，代詞 冠詞 連詞 輸出詞頻...
				中文詞頻統計
從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙，代詞 冠詞 連詞 輸出詞頻...

中文詞頻統計

中文詞頻統計

中文詞頻統計

中文詞頻統計

相關推薦