wordcloud和jieba 的學習

2021-10-25 02:16:18 字數 1825 閱讀 6917

wordcloud和jieba的安裝都很簡單 都是pip install 直接安裝就行,但是在學校機房,那個詞云就是安裝完就是報錯,很奇怪,自己的電腦很順利。!!!

然後 其實也不是自己寫的 就直接從網上找的例子,自己看了看 感覺能看懂 嘻嘻 好懶~

說說重點步驟吧

1、

def

gettext

(text)

:#該函式用來替換文字**現的特殊字元

txt = text

for ch in

'!"#$%&()*+,-./:;<=>?@[\\]^_『~,。、 :'

: txt = txt.replace(ch,"")

#將文字中特殊字元替換為空格

return txt

先將文字中的特殊字元去除

2、

string =

open

(r'c:\users\13583\desktop\\夏c歌迷會.txt'

,'r'

,encoding=

'utf-8'

).read(

)

`

讀取文字

3、

s = re.

compile

('[email protected]片.+9879576219'

)#編寫正規表示式

message = re.sub(s,

'',string)

將無關的字元變成空格

4、

# 繪製詞云

defdraw_wordcloud()

:#讀入乙個txt檔案

comment_text =

open

('f:\program\myprojects\clustering\\fenci1.0\wordseg_result.txt'

,'r'

).read(

)#結巴分詞,生成字串,如果不通過分詞,無法直接生成正確的中文詞云

cut_text =

" ".join(jieba.cut(comment_text)

) d = path.dirname(__file__)

# 當前檔案資料夾所在目錄

color_mask = imread(

"anne_hathaway.png"

)# 讀取背景

cloud = wordcloud(

#設定字型,不指定就會出現亂碼

font_path=

"hyqihei-25j.ttf"

,#font_path=path.join(d,'simsun.ttc'),

#設定背景色

background_color=

'white'

,#詞云形狀

mask=color_mask,

#允許最大詞彙

max_words=

2000

,#最大號字型

max_font_size=40)

word_cloud = cloud.generate(cut_text)

# 產生詞云

)#儲存

# 顯示詞云

plt.imshow(word_cloud)

plt.axis(

'off'

) plt.show(

)

總結: 這個大體的功能就這些了 剩下的就是應用了 和前期處理 如何讓無用的資料不影響資料很關鍵!

加油加油哦 ccc

用wordcloud和jieba生成中文詞云

wordcloud是python中乙個非常優秀的第三方詞云展示庫,但是處理中文就不怎麼能勝任,因為中文通常包含著一整句話,儘管在wordcloud裡雖然也有process text 方法用於把很長的文字做分隔,但這個方法本身是根據英文文字分詞設計的,所以對於中文字的展示必須要配合更適合做中文分詞處理...

檔案的使用和wordcloud庫

1.開啟檔案 變數名 open filename 開啟模式 開啟模式 描述 r 唯讀模式,預設值,若檔案不存在,則返回filenotfounderror w 覆蓋寫模式,檔案不存在則建立,存在則完全覆蓋 x 建立寫模式,檔案不存在則建立,存在則返回fileexistserror錯誤 a 追加寫模式,...

jieba 利用jieba分詞

目錄 三種分詞模式 新增自定義詞典進行分詞 jieba提供了三種分詞模式,分別是全模式,精確模式和搜尋引擎模式。全模式下會將所有可能的詞語都進行分詞,精確模式下會盡可能的將句子精確切開,搜尋引擎模式實在精確模式的基礎上,對長詞再進行劃分,提高分詞的召回率。使用cut和cut for search即可...