從檔案讀取待分析文字。
news = open('gzccnews.txt','r',encoding = 'utf-8')
安裝與使用jieba進行中文分詞。
pip install jieba
import jieba
list(jieba.lcut(news))
生成詞頻統計
排序排除語法型詞彙,代詞、冠詞、連詞
輸出詞頻最大top20
importjieba
fo = open('
douluo.txt
','r
',encoding='
utf-8
').read()
wordsls =jieba.lcut(fo)
wcdict ={}
#for word in wordsls:
#if len(word)==1:
#continue
#else:
#wcdict[word]=wcdict.get(word,0)+1
for i in
set(wordsls):
wcdict[i]=wordsls.count(i)
delete=
for i in
delete:
if i in
wcdict:
delwcdict[i]
sort_word = sorted(wcdict.items(), key = lambda d:d[1], reverse = true) #
排序for i in range(20): #
輸出print
(sort_word[i])
#fo = open("douluo1.txt", "r",encoding='utf-8')
#print ("檔名為: ", fo.name)
#for index in range(5):
#line = next(fo)
#print ("第 %d 行 - %s" % (index, line))##
# 關閉檔案
#fo.close()
中文詞頻統計
2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫,加入所分析物件的專業詞彙。5.生成詞頻統計 排序 排除語法型詞彙,代詞 冠詞 連詞等停用詞 輸出詞頻最大top20,把結果存放到檔案裡 源 import jieba fo open r d 三體.txt encoding ...
中文詞頻統計
從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...
中文詞頻統計
作業要求來自 2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫,加入所分析物件的專業詞彙。5.生成詞頻統計 6.排序 7.排除語法型詞彙,代詞 冠詞 連詞等停用詞。此處使用的是標準的詞語停用表 8.輸出詞頻最大top20,把結果存放到檔案裡 輸出的top20為 9.生成詞...