使用jieba庫,進行中文詞頻統計,輸出top20的詞及出現次數。
排除一些無意義詞、合併同一詞。
對詞頻統計結果做簡單的解讀。
import jieba#引入庫fo=open('
老人與海.txt
','r
',encoding='
utf-8')
t=fo.read()
fo.close()
#讀入待分析文章
words=jieba.cut(t)#
分解提取詞彙
dic={}#
建立乙個字典
for w in
words:
if len(w)==1:
continue
#去掉乙個位元組的字元
else
: dic[w]=dic.get(w,0)+1#
對字典賦鍵值
wc = list(dic.items())#
將字典轉換成由元組組成的列表
wc.sort(key=lambda x:x[1],reverse = true)#
對字典的值按從大到小排序
for i in range(20):
print(wc[i])#
輸出前20個
解讀:該書的主人公是老人和小孩,講述的是老人乘船出海捕魚,最後老人經過幾天幾夜不屈不撓的鬥爭終於戰勝了大魚,成功捕獲它。
迴圈語句加count:
import jieba#引入庫fo=open('
老人與海.txt
','r
',encoding='
utf-8')
t=fo.read()
fo.close()
#讀入待分析文章
words=list(jieba.cut(t))#
分解提取詞彙
dic={}#
建立乙個字典
exc=#
需要去掉的詞彙
keys=set(words)-exc#
對字典賦鍵
for w in keys:#
對字典的鍵便利
if len(w)==1:
continue
#去掉乙個位元組的字元
else
: dic[w]=words.count(w)#
對字典賦值,即對鍵統計後賦值
wc = list(dic.items())#
將字典轉換成由元組組成的列表
wc.sort(key=lambda x:x[1],reverse = true)#
對字典的值按從大到小排序
for i in range(20):
print(wc[i])#
輸出前20個
中文詞頻統計
2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。4.更新詞庫,加入所分析物件的專業詞彙。5.生成詞頻統計 排序 排除語法型詞彙,代詞 冠詞 連詞等停用詞 輸出詞頻最大top20,把結果存放到檔案裡 源 import jieba fo open r d 三體.txt encoding ...
中文詞頻統計
從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...
中文詞頻統計
從檔案讀取待分析文字。news open gzccnews.txt r encoding utf 8 安裝與使用jieba進行中文分詞。pip install jieba import jieba list jieba.lcut news 生成詞頻統計 排序排除語法型詞彙,代詞 冠詞 連詞 輸出詞頻...