# -*- coding: utf-8 -*-
# matplotlib是乙個 python 的 2d數學繪相簿
# 安裝:pip install matplotlib
import matplotlib.pyplot as plt
# jieba中文分詞庫
# 安裝:pip install jieba
import jieba
# wordcloud詞云庫
# 安裝pip install wordcloud
from wordcloud import wordcloud
# 1.讀入txt文字資料
text = open(r'jay.txt', "r",encoding=
"utf-8"
).read(
)#print(text)
# 2.結巴中文分詞,生成字串,預設精確模式,如果不通過分詞,無法直接生成正確的中文詞云
cut_text = jieba.cut(text)
# print(type(cut_text))
# print(next(cut_text))
# print(next(cut_text))
# print(next(cut_text))
# 必須給個符號分隔開分詞結果來形成字串,否則不能繪製詞云
result =
" ".join(cut_text)
# print(result)
# 無自定義背景圖:需要指定生成詞雲圖的畫素大小,預設背景顏色為黑色,統一文字顏色:mode='rgba'和colormap='pink'
wc= wordcloud(
# 設定字型,不指定就會出現亂碼
font_path=r'.\simhei.ttf',
# 設定背景色
background_color=
'white',
# 設定背景寬
width=500,
# 設定背景高
height=350,
# 最大字型
max_font_size=50,
# 最小字型
min_font_size=10,
)# max_words=1000 ),mode='rgba',colormap='pink')
# 產生詞云
wc.generate(result)
# 儲存
wc.to_file(r"wordcloud.png"
)# 按照設定的畫素寬高度儲存繪製好的詞雲圖,比下面程式顯示更清晰
# 4.顯示
# 指定所繪圖名稱
plt.figure(
"jay"
)# 以的形式顯示詞云
plt.imshow(wc)
# 關閉影象座標系
plt.axis(
"off"
)plt.show(
)
jay.txt
從出生那年就飄著 童年的盪鞦韆
隨記憶一直晃到現在 吹著前奏 望著天空
我想起花瓣 試著掉落 為你翹課的那一天
花落的那一天 教室的那一間 我怎麼看不見
消失的下雨天 我好想再淋一遍 周杰倫
沒想到 失去的勇氣我還留著 周杰倫
好想再問一遍 你會等待還是離開 周杰倫
颳風這天 我試過握著你手 周杰倫
但偏偏雨漸漸 大到我看你不見 周杰倫
還要多久 我才能在你身邊 等到放晴的那天 周杰倫
也許我會比較好一點 從前從前 有個人愛你很久 周杰倫
但偏偏風漸漸 把距離吹得好遠 周杰倫
好不容易 又能再多愛一天 但故事的最後 周杰倫
你好像還是說了拜拜 為你翹課的那一天 周杰倫
花落的那一天 教室的那一間 我怎麼看不見 周杰倫
消失的下雨天 我好想再淋一遍 周杰倫
沒想到 失去的勇氣我還留著 好想再問一遍 周杰倫
你會等待還是離開 颳風這天 我試過握著你手 周杰倫
但偏偏雨漸漸 大到我看你不見
還要多久 我才能在你身邊 等到放晴的那天 周杰倫
也許我會比較好一點 從前從前 有個人愛你很久
偏偏風漸漸 把距離吹得好遠 周杰倫
好不容易 又能再多愛一天 但故事的最後 周杰倫
你好像還是說了拜拜 颳風這天 我試過握著你手 周杰倫
但偏偏雨漸漸 大到我看你不見 周杰倫
還要多久 我才能夠在你身邊
等到放晴那天 也許我會比較好一點 周杰倫
從前從前 有個人愛你很久
但偏偏風漸漸 把距離吹得好遠 周杰倫
好不容易 又能再多愛一天
大資料視覺化(六)文字資料視覺化
在於利用視覺化技術刻畫文字和文件,將其中的資訊直觀的呈現。對文字的理解需求分為 詞彙級 語法級和語義級。詞彙級使用各類分詞演算法,而語法級使用一些句法分析演算法,語義級則使用主題抽取演算法。文字資料類別分為 單文字,文件集合,時序文字。文字視覺化的基本流程 原始文字 文字資訊挖掘 文字預處理 文字特...
視覺化文字資料 詞云
在r語言的包裡面,有乙個wordcloud的包,專門用來建立這種型別的圖形,它是由加州大學洛杉磯分校的專業統計學家ian fellows編寫的。下面用幾句簡單的r語言即可繪製出一張詞云 library wordcloud library tm library nlp getwd sms corpus...
文字資料視覺化中一些概念
詞云 詞云是乙個自動化的文字視覺化工具。詞云的特點 1 自動提取高頻詞 2 呈現高頻詞 3 字型大小體現單詞出現的次數。文字視覺化的重要意義 在於幫助使用者快速地完成大量文字閱讀和理解,並從中獲取重要的資訊。文字資料 比如 報紙 網頁等 應用場景 電子商務 社交計算 商業智慧型 使用者體驗 分析 公...