大資料視覺化(五)關係資料視覺化

2021-10-12 02:53:56 字數 1734 閱讀 9448

關係資料具有關聯性與分布性

兩個量化資料之間的數理關係

通過資料關聯性可已根據乙個已知的數值變化來**另乙個數值的變化。

正相關、負相關、不相關

# 散點圖

crime = pd.read_csv("data/crimeratesbystate2005.csv")

( scatter()

.add_xaxis(crime["murder"])

.add_yaxis("", crime["burglary"])

.set_global_opts(

title_opts=opts.titleopts(title="**案和入室盜竊案的關聯性散點圖",pos_left="center"),

xaxis_opts=opts.axisopts(splitline_opts=opts.splitlineopts(is_show=true),name="**案",name_location="middle",name_gap=30),

yaxis_opts=opts.axisopts(splitline_opts=opts.splitlineopts(is_show=true),name="入室盜竊案",name_location="center",name_gap=50),

legend_opts=opts.legendopts(is_show=false)

).set_series_opts(label_opts=opts.labelopts(is_show=false))

.render("result/5-2.html")

)#matplotlib實現

crime = pd.read_csv("data/crimeratesbystate2005.csv")

crime=crime[crime.state!="united states"]

crime=crime[crime.state!="district of columbia"]

plt.scatter(crime["murder"],crime["burglary"])

plt.show()

同時繪製多個變數間的散點圖,快速發現變數間的相關性

#散點圖矩陣

crime = pd.read_csv("data/crimeratesbystate2005.csv")

crime=crime[crime.state!="united states"]

crime=crime[crime.state!="district of columbia"]

crime=crime.drop(["population"],axis=1)

crime=crime.drop(["state"],axis=1)

g=sns.pairplot(crime,diag_kind="kde",kind='reg')#kde密度曲線reg擬合曲線

plt.show()

由大小不同的標記表示,便於比較三個變數

視覺化圖幾乎可以表示所有資料的內容,並且將資料分布的情況也呈現。

例如曲線平坦,代表資料分布均勻;重心偏左,大部分資料取較低的數值;呈現正態分佈。表示大部分資料在平均值附近。

可以一次完成統計分組和次數分配,是探索資料分析中對資料初步形象的描繪。

優點:統計圖上沒有原始資料的損失

圖中的資料可以隨時記錄和新增,方便使用

高度表示數值頻率,寬度數值區間。

反映資料分布的密度情況。

大資料視覺化(四)比例資料視覺化

比例資料根據類別 子類別 群體進行劃分。可以呈現各個部分與其他部分的相對關係,還可以呈現整體的構成情況 不太適合表示精確的資料 適合呈現各部分在整體中的比例,體現部分與整體之間的關係 data pd.read csv data vote result.csv datab data areas of ...

資料視覺化 什麼是資料視覺化

資料對應的英文單詞是data,從資訊獲取的角度看,資料是對目標觀察和記錄的結果,是現實世界中的時間 地點 事件 其他物件或概念的描述。不同學者對資料的作用也給出不同的定義,大致分為以下3類 視覺化對應的兩個英文單詞 visualize和visualization。visualize是動詞,描述 生成...

大資料視覺化(六)文字資料視覺化

在於利用視覺化技術刻畫文字和文件,將其中的資訊直觀的呈現。對文字的理解需求分為 詞彙級 語法級和語義級。詞彙級使用各類分詞演算法,而語法級使用一些句法分析演算法,語義級則使用主題抽取演算法。文字資料類別分為 單文字,文件集合,時序文字。文字視覺化的基本流程 原始文字 文字資訊挖掘 文字預處理 文字特...