本人正在學習資訊檢索相關課程,想在這裡發布學習筆記以供自己未來查閱,其中的內容有自己的理解已經查閱資料得出來的結論,如有錯誤歡迎批評指正。
三、中文詞云總結
**如下(示例):
pip install worldcloud
建立乙個txt檔案來存放要生成詞云的英文文字,檔案存放時要注意編碼格式(選取utf-8)。
我這選取的是《經濟學人》中的一篇文章。
下面就要開始讀取檔案中的資料了。
**如下(示例):
filename=r"c:\users\de'l'l\desktop\學習\資訊檢索與原理\詞云\economics.txt"
#文字位置
with
open
(filename,encoding=
"utf-8"
)as f:
mytext=f.read(
)
from wordcloud import wordcloud
import matplotlib.pyplot as plt
wordcloud=wordcloud(
).generate(mytext)
#使用mytext中的詞生成詞云
%pylab inline
#%pylab是一種魔術函式,可在notebook環境中自動載入numpy和matplotlib庫
#inline表示將圖嵌入到jupyter notebook中
plt.imshow(wordcloud,interpolation=
"bilinear"
)#plt.imshow()函式負責對影象進行處理,並顯示其格式,interpolation表示一種插值運算方式(可以保護影象細節)
plt.axis(
"off"
)#不顯示刻度
理論上和英文的差不多,但多在中文需要分詞
pip install jieba
我選取的是一篇關於新冠肺炎的報道
下面讀取資料並進行分詞
filename=r"c:\users\de'l'l\desktop\學習\資訊檢索與原理\詞云\新冠肺炎.txt"
with
open
(filename,encoding=
"utf-8"
)as f:
mytext=f.read(
)import jieba
mytext =
" ".join(jieba.cut(mytext)
)#使用jieba進行分析,在每個詞中新增空格
from wordcloud import wordcloud
wordcloud = wordcloud(font_path=
"simsun.ttf"
).generate(mytext)
#font_path是設定字型,不指定可能會出現亂碼
%pylab inline
import matplotlib.pyplot as plt
plt.imshow(wordcloud, interpolation=
'bilinear'
)plt.axis(
"off"
)
突然發現自己報錯了
oserror: cannot open resource
原因是沒有為設定字型路徑
**中的wordcloud那一行改為下面的就好了
wordcloud = wordcloud(font_path=r"c:\users\de'l'l\desktop\學習\資訊檢索與原理\詞云\simsun.ttf"
).generate(mytext)
結果如下:
結束
python 生成簡單的詞云
frommatplotlibimportpyplot fromwordcloudimportwordcloud,imagecolorgenerator importjieba,pymysql fromscipy.miscimportimread 這是乙個處理影象的函式 conn pymysql.co...
使用python進行簡單的分詞與詞云
目標 匯入乙個文字檔案 使用jieba對文字進行分詞 使用wordcloud包繪製詞云 環境 python 3.6.0 anaconda 4.3.1 64 bit 工具 jupyter notebook 分詞使用最流行的分詞包jieba,參考 詞云使用wordcloud包,參考 這兩個包都不是ana...
python生成詞云簡單案例
環境 python3.6 第三方庫 matplotlib wordcloud pil 如下 執行展示效果 分割線 以上使用於英文文字,中文文字流程如下 第三方庫 matplotlib wordcloud pil jieba numpy from wordcloud import wordcloud ...