大資料基礎 詞云構建

2021-10-05 21:32:40 字數 4229 閱讀 9727

'''

詞云就是將噶你興趣的詞語放在一張影象中,通常使用字型的大小來反映出現的頻率。

出現的頻率越高。詞雲中的字型越大

'''import jieba

from wordcloud import wordcloud

import matplotlib.pyplot as plt

s1='020賽季中超聯賽原本計畫在2月底揭幕,因為新冠疫情影響,已經拖延了兩個多月時間。' \

'絕大多數職業俱樂部本就處於長期虧損狀態,眼下沒有比賽可打,收入更幾乎為零。與此同時,' \

'俱樂部卻依然要履行工作合同,向球員和教練支付高昂工資。根據統計,目前薪資支出約佔俱樂部運營成本的70%左右.' \

'為此,中國足協專門同國際足聯進行了溝通。此前,國際足聯頒布了《關於應對新冠疫情足球管理問題指南》(以下簡稱《指南》),' \

'認定新冠疫情為不可抗力,建議俱樂部和球員、教練員在友好協商的基礎上合理修訂工作合同。國際足聯表示,如在薪酬協商和調整過程中' \

'出現爭議,按照《指南》原則對個案進行評估和處理。處理原則包括:友好協商、幅度合理;同時要綜合考察俱樂部的經濟狀況、球員和教練的稅' \

'後收入水平,以及單邊決定適用的範圍(全隊或個人)。'

s2='此次降薪的重要前提是俱樂部與球員、教練員應堅持友好協商,達成共識,同時保護低收入球員和教練員的利益,不鼓勵降低或延付他們的薪資。降薪可以' \

'幫助俱樂部和投資人緩解一定經濟壓力,維持運營。這也是眼下國際足壇通行的做法,畢竟,面對疫情這只「黑天鵝」,俱樂部的生存才是第一要務,避免' \

'財務風險,在很大程度上決定著聯賽發展的穩定。雖然此次降薪的首要目標是應對疫情衝擊。但從長遠看,調整俱樂部財務結構,實現財務健康是足球職業' \

'聯賽擠掉泡沫、邁入良性發展之路的必要之舉和務實之舉。聯賽苦高薪久矣,足球深化改革,聯賽可持續發展牽涉方方面面,降薪是繞不過的環節。正如中國足' \

'協主席陳戌源所說:「要以壯士斷腕的態度,重新塑造職業聯賽的財務體系,不擠掉泡沫,中國足球沒有未來。」'

mylist=[s1,s2];

# 將s1,s2做成列表

word_list=[" ".join(jieba.cut(sentence)) for sentence in mylist ];

# 遍歷列表,然後將其做成分詞後做成列表

new_text=' '.join(word_list);

# 將分詞後的元素用空格為分割符拼接,便於計算詞頻

woldcloud=wordcloud(font_path='simhei.ttf',background_color='black').generate(new_text);

# 設定詞云的字型和背景顏色

plt.imshow(woldcloud);

# plt.imshow()函式負責對影象進行處理,並顯示其格式,但是不能顯示。

plt.axis("off");

# 座標軸不可見

plt.show()

# 顯示影象

woldcloud.to_file('hello.png')

# 儲存

wordcloud.to_file('詞云.png')

首先對文字進行分詞

import jieba

jieba.cut(comntent,cut_all=true)

content就是需要分詞的文字,cut_all將文字中的詞都分割出來

然後構建詞云

'''import jieba

from wordcloud import wordcloud

from scipy.misc import imread

import matplotlib.pyplot as plt

content=open(r'pachong.txt',encoding='utf-8');

mylist=list(content);

word_list=[' '.join(jieba.cut(sentence)) for sentence in mylist];

new_list=' '.join(word_list);

read_image=imread('apchong.png');

wc=wordcloud(font_path='simhei.ttf',background_color='white',max_words=2000,mask=read_image).generate(new_list)

plt.imshow(wc);

plt.axis('off');

plt.show()

wc.to_file('孩子.png');

'''wordcloud包的基本用法:

font_path:用來設定影象中的字型

width:設定影象的寬度,height:用來設定影象的高度

margin:畫布偏移,詞語邊緣距離,預設是兩個畫素

mask:用於填充的影象,如果為空的話,則表示全白

max_words:要顯示詞的最大個數

background_color:表示背景顏色,預設為白色

關於詞云的方法有:

generate(text)//根據文字生成詞云

fit_words(frequencies)//根據詞頻生成詞云

to_file(filename)//輸出到檔案

to_array()//轉化為陣列

'''

import jieba

from wordcloud import wordcloud

from scipy.misc import imread

import matplotlib.pyplot as plt

from collections import counter

content = open(r'pachong.txt', encoding='utf-8');

mylist = list(content);

word_list = [' '.join(jieba.cut(sentence)) for sentence in mylist];

new_list = ' '.join(word_list);

con_words=[x for x in jieba.cut(new_list) if len(x) >= 2]

frequents=counter(con_words).most_common()

frequents=dict(frequents)

read_image = imread('apchong.png');

wc = wordcloud(font_path='simhei.ttf', background_color='white', max_words=2000, mask=read_image).fit_words(frequents)

plt.imshow(wc);

plt.axis('off');

plt.show()

wc.to_file('孩子_1.png');

python 基礎 詞云

import re 正規表示式庫 import collections 詞頻統計庫 import numpy as np numpy資料處理庫 import wordcloud 詞云展示庫 from pil import image 影象處理庫 import matplotlib.pyplot as...

構建「大資料 教育」雲服務體系

助推創新型中心城市建設 貴陽實施 教育立市 戰略提公升整體水平綜述 三 人們印象中影響學習的電子產品,搭載教學內容後,就能發揮正面作用。近日,在貴陽六中高一年級的物理課堂上,同學們就用上了pad進行自主學習。大資料應用於教育,能夠科學分析學生的學習行為 學習程度 學習習慣,以及學校的精細化管理程度,...

大資料視覺化案例一 詞云

詞云 詞雲圖過濾掉大量的文字資訊,使瀏覽網頁者只要一眼掃過文字就可以領略文字的主旨。在之前通過爬蟲獲得新冠肺炎資料之後,使用詞云來直觀反映哪些地區的疫情較嚴重。字越大反映越嚴重 第一步 讀取excel資料 import openpyxl wb openpyxl.load workbook data....