中文詞頻統計

從檔案讀取待分析文字。

news = open('gzccnews.txt','r',encoding = 'utf-8')

安裝與使用jieba進行中文分詞。

pip install jieba

import jieba

list(jieba.lcut(news))

生成詞頻統計

排序排除語法型詞彙，代詞、冠詞、連詞

輸出詞頻最大top20

import
jieba
fo = open('
douluo.txt
','r
',encoding='
utf-8
').read()
wordsls =jieba.lcut(fo)
wcdict ={}
#for word in wordsls:
#if len(word)==1:
#continue
#else:
#wcdict[word]=wcdict.get(word,0)+1
for i in
set(wordsls):
wcdict[i]=wordsls.count(i)
delete=
for i in
delete:
if i in
wcdict:
delwcdict[i]
sort_word = sorted(wcdict.items(), key = lambda d:d[1], reverse = true)  #
排序for i in range(20):  #
輸出print
(sort_word[i])
#fo = open("douluo1.txt", "r",encoding='utf-8')
#print ("檔名為: ", fo.name)
#for index in range(5):
#line = next(fo)
#print ("第 %d 行 - %s" % (index, line))##
# 關閉檔案
#fo.close()

中文詞頻統計

2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫，加入所分析物件的專業詞彙。5.生成詞頻統計排序排除語法型詞彙，代詞冠詞連詞等停用詞輸出詞頻最大top20，把結果存放到檔案裡源 import jieba fo open r d 三體.txt encoding ...

中文詞頻統計

從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計排序排除語法型詞彙，代詞冠詞連詞輸出詞頻...

中文詞頻統計

作業要求來自 2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫，加入所分析物件的專業詞彙。5.生成詞頻統計 6.排序 7.排除語法型詞彙，代詞冠詞連詞等停用詞。此處使用的是標準的詞語停用表 8.輸出詞頻最大top20，把結果存放到檔案裡輸出的top20為 9.生成詞...

中文詞頻統計

中文詞頻統計

中文詞頻統計

中文詞頻統計

相關推薦