wordcloud和jieba的安裝都很簡單 都是pip install 直接安裝就行,但是在學校機房,那個詞云就是安裝完就是報錯,很奇怪,自己的電腦很順利。!!!
然後 其實也不是自己寫的 就直接從網上找的例子,自己看了看 感覺能看懂 嘻嘻 好懶~
說說重點步驟吧
1、
def
gettext
(text)
:#該函式用來替換文字**現的特殊字元
txt = text
for ch in
'!"#$%&()*+,-./:;<=>?@[\\]^_『~,。、 :'
: txt = txt.replace(ch,"")
#將文字中特殊字元替換為空格
return txt
先將文字中的特殊字元去除
2、
string =
open
(r'c:\users\13583\desktop\\夏c歌迷會.txt'
,'r'
,encoding=
'utf-8'
).read(
)
`
讀取文字
3、
s = re.
compile
('[email protected]片.+9879576219'
)#編寫正規表示式
message = re.sub(s,
'',string)
將無關的字元變成空格
4、
# 繪製詞云
defdraw_wordcloud()
:#讀入乙個txt檔案
comment_text =
open
('f:\program\myprojects\clustering\\fenci1.0\wordseg_result.txt'
,'r'
).read(
)#結巴分詞,生成字串,如果不通過分詞,無法直接生成正確的中文詞云
cut_text =
" ".join(jieba.cut(comment_text)
) d = path.dirname(__file__)
# 當前檔案資料夾所在目錄
color_mask = imread(
"anne_hathaway.png"
)# 讀取背景
cloud = wordcloud(
#設定字型,不指定就會出現亂碼
font_path=
"hyqihei-25j.ttf"
,#font_path=path.join(d,'simsun.ttc'),
#設定背景色
background_color=
'white'
,#詞云形狀
mask=color_mask,
#允許最大詞彙
max_words=
2000
,#最大號字型
max_font_size=40)
word_cloud = cloud.generate(cut_text)
# 產生詞云
)#儲存
# 顯示詞云
plt.imshow(word_cloud)
plt.axis(
'off'
) plt.show(
)
總結: 這個大體的功能就這些了 剩下的就是應用了 和前期處理 如何讓無用的資料不影響資料很關鍵!
加油加油哦 ccc
用wordcloud和jieba生成中文詞云
wordcloud是python中乙個非常優秀的第三方詞云展示庫,但是處理中文就不怎麼能勝任,因為中文通常包含著一整句話,儘管在wordcloud裡雖然也有process text 方法用於把很長的文字做分隔,但這個方法本身是根據英文文字分詞設計的,所以對於中文字的展示必須要配合更適合做中文分詞處理...
檔案的使用和wordcloud庫
1.開啟檔案 變數名 open filename 開啟模式 開啟模式 描述 r 唯讀模式,預設值,若檔案不存在,則返回filenotfounderror w 覆蓋寫模式,檔案不存在則建立,存在則完全覆蓋 x 建立寫模式,檔案不存在則建立,存在則返回fileexistserror錯誤 a 追加寫模式,...
jieba 利用jieba分詞
目錄 三種分詞模式 新增自定義詞典進行分詞 jieba提供了三種分詞模式,分別是全模式,精確模式和搜尋引擎模式。全模式下會將所有可能的詞語都進行分詞,精確模式下會盡可能的將句子精確切開,搜尋引擎模式實在精確模式的基礎上,對長詞再進行劃分,提高分詞的召回率。使用cut和cut for search即可...