fromwordcloud import wordcloud
import matplotlib.pyplot
asplt
import numpy
asnp
from
pil import image
from jieba import *def replace(text,old,
new): #替換列表的字串
forchar
inold:
text = text.replace(char,new
)
return
text
def gettext(filename): #讀取檔案內容(utf-8
編碼格式)
#特殊符號和部分無意義的詞
sign = '''
!~·@¥……*「」『』\n(){}【】;:"
'「,」。-、?'''
with open('
{}.txt
'.format(filename), "
r") as
f: # 設定檔案物件
txt =f.read()
return replace(txt,sign,"")
def creat_word_cloud(filename): #將filename 檔案的詞語按出現次數輸出為詞雲圖
text =gettext(filename) #讀取檔案
wordlist =lcut(text) #jieba庫精確模式分詞
wl = '
'.join(wordlist) #生成新的字串
#設定詞雲圖
font = r'
c:\windows\fonts\simfang.ttf
'#設定字型路徑
wc =wordcloud(
background_color = '
black
', #背景顏色
max_words = 2000
, #設定最大顯示的詞云數
font_path =font, #設定字型形式(在本機系統中)
height = 1200
, #高度
width = 1600
, #寬度
max_font_size = 100
, #字型最大值
random_state = 250
, #配色方案的種類
)myword =wc.generate(wl) #生成詞云
#展示詞雲圖
plt.imshow(myword)
plt.axis(
'off')
plt.show()
#以原本的filename命名儲存詞雲圖
wc.to_file(
'{}.png
'.format(filename))
if __name__ == '
__main__':
creat_word_cloud(
'data
') #輸入檔名生成詞雲圖
jieba庫詞頻統計 運用jieba庫進行詞頻統計
python第三方庫jieba 中文分詞 一 概述 jieba是優秀的中文分詞第三方庫 中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫提供三種分詞模式,最簡單只需掌握乙個函式 二 安裝說明 全自動安裝 cmd命令列 pip install jieb...
jieba庫詞頻統計 jieba庫的使用與詞頻統計
1 詞頻統計 1 詞頻分析是對文章中重要詞彙出現的次數進行統計與分析,是文字 挖掘的重要手段。它是文獻計量學中傳統的和具有代表性的一種內容分析方法,基本原理是通過詞出現頻次多少的變化,來確定熱點及其變化趨勢。2 安裝jieba庫 安裝說明 對 python 2 3 均相容 全自動安裝 easy in...
使用jieba 中文分詞 庫統計詞頻
以統計水滸傳人物出場次數為例,列出出場次數最高的前三名。import jieba 引用中文分詞庫 txt open shuihu.txt r encoding gb18030 read 讀取檔案,注意編碼 excludes 通過不斷優化排除結果中的無用詞 words jieba.lcut txt 中...