從檔案讀取待分析文字。
news = open('gzccnews.txt','r',encoding = 'utf-8')
安裝與使用jieba進行中文分詞。
pip install jieba
import jieba
list(jieba.lcut(news))
生成詞頻統計
排序排除語法型詞彙,代詞、冠詞、連詞
輸出詞頻最大top20
import jiebaf=open('好嗎.txt','r')
notes=f.read()
notelist=list(jieba.lcut(notes))
notedic={}
for i in set(notelist): #計算次數
notedic[i]=notelist.count(i)
delete_word=
for i in delete_word: #刪除非法詞彙
if i in notedic:
del notedic[i]
sort_word = sorted(notedic.items(), key= lambda d:d[1], reverse = true) # 由大到小排序
for i in range(20): #輸出詞頻top20
中文詞頻統計
2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫,加入所分析物件的專業詞彙。5.生成詞頻統計 排序 排除語法型詞彙,代詞 冠詞 連詞等停用詞 輸出詞頻最大top20,把結果存放到檔案裡 源 import jieba fo open r d 三體.txt encoding ...
中文詞頻統計
從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...
中文詞頻統計
作業要求來自 2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫,加入所分析物件的專業詞彙。5.生成詞頻統計 6.排序 7.排除語法型詞彙,代詞 冠詞 連詞等停用詞。此處使用的是標準的詞語停用表 8.輸出詞頻最大top20,把結果存放到檔案裡 輸出的top20為 9.生成詞...