1、詞頻統計
(1)詞頻分析是對文章中重要詞彙出現的次數進行統計與分析,是文字
挖掘的重要手段。它是文獻計量學中傳統的和具有代表性的一種內容分析方法,基本原理是通過詞出現頻次多少的變化,來確定熱點及其變化趨勢。
(2)安裝jieba庫
安裝說明
**對 python 2/3 均相容
全自動安裝:easy_install jieba 或者 pip install jieba / pip3 install jieba
手動安裝:將 jieba 目錄放置於當前目錄或者 site-packages 目錄
通過 import jieba 來引用
示例、全自動安裝
在命令列下輸入指令:
pip install jieba
(2) 安裝程序:
2、呼叫庫函式
1、輸入import jieba與使用其中函式
3、python**
#!python3
#-*- coding: utf-8 -*-import os, codecs
import jiebafromcollections import counter
def get_words(txt):
seg_list=jieba.cut(txt) #對文字進行分詞
c=counter()for x inseg_list: #進行詞頻統計if len(x)>1 and x != '\r\n':
c[x]+= 1print('常用詞頻度統計結果')for (k,v) in c.most_common(20): #遍歷輸出高頻詞
print('%s%s %s %d' % (' '*(5-len(k)), k, '*'*int(v/2), v))if __name__ == '__main__':
with codecs.open('夢裡花落知多少.txt', 'r', 'utf8') asf:
txt=f.read()
get_words(txt)
• •顯示效果
4、詞云
import jieba
import wordcloud
f= open("夢裡花落知多少.txt","r",encoding = "utf-8") #開啟檔案
t=f.read() #讀取檔案,並存好
f.close()
ls=jieba.lcut(t) #對文字分詞
txt= " ".join(ls) #對文字進行標點空格化
w= wordcloud.wordcloud(font_path = "msyh.ttc",width = 1000,height = 700,background_color = "white") #設定詞云背景,找到字型路徑(否則會亂碼)
w.generate(txt) #生成詞云
w.to_file("govermentwordcloud.png") #儲存詞雲圖
• 詞云顯示
jieba庫詞頻統計 運用jieba庫進行詞頻統計
python第三方庫jieba 中文分詞 一 概述 jieba是優秀的中文分詞第三方庫 中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫提供三種分詞模式,最簡單只需掌握乙個函式 二 安裝說明 全自動安裝 cmd命令列 pip install jieb...
jieba詞頻統計
from wordcloud import wordcloud import matplotlib.pyplot asplt import numpy asnp from pil import image from jieba import def replace text,old,new 替換列表...
使用jieba 中文分詞 庫統計詞頻
以統計水滸傳人物出場次數為例,列出出場次數最高的前三名。import jieba 引用中文分詞庫 txt open shuihu.txt r encoding gb18030 read 讀取檔案,注意編碼 excludes 通過不斷優化排除結果中的無用詞 words jieba.lcut txt 中...