資料分析能夠很好地幫我們了解資料,理解資料,能夠幫助我們進行有效的特徵工程,方便後續的機器學習建模。pandas作為強大的資料分析工具,提供的內建視覺化功能也是十分強大的。
series和dataframe上的這個功能只是使用matplotlib庫的plot()方法的簡單包裝實現。
繪圖方法允許除預設線圖之外的少數繪圖樣式。 這些方法可以作為plot()的kind關鍵字引數提供。這些包括 -
條形圖通常用來比較不同類的大小,而堆積條形圖通常用來比較不同類佔比。
如果我們要生成乙個堆積條形圖,可以指定stacked引數為true.
要獲得水平條形圖,使用barh()
方法
可以使用plot.hist()
方法繪製直方圖。我們可以指定bins
的數量值。
直方圖主要為了了解資料的分布情況,一般用於連續值的列,指定bins數進行區間劃分,然後統計每個bin的數量進行展示。
如果要將三個直方圖分開繪製,則使用df.hist(bins=20)
對於數值變數,我們不僅需要了解資料的集中趨勢(如均值),還要了解資料的離散趨勢,即觀測值偏離其中心的趨勢。而箱線圖能夠很好地反應資料的離散趨勢,受極端值影響較小。
首先直觀了解一下四分位數、分位點和四分位距的概念,如下圖所示:
基於這些指標我們能繪製出箱線圖:
如圖所示,上下邊緣到四分位線的距離不對稱,可以判斷這裡繪製的箱線圖的上下邊緣表示的是最大最小值。
可以使用series.plot.area()
或dataframe.plot.area()
方法建立區域圖形,主要用於相對和絕對差異的對比。
繪製散點圖可看出兩個變數之間的關係。
可以使用dataframe.plot.scatter()
方法建立散點圖
餅狀圖用來反映各類的百分比情況。
餅狀圖可以使用dataframe.plot.pie()
方法建立
Pandas資料視覺化
pd.dataframeplot x none,y none,kind line figsize none,legend true,style none,color b alpha none,title none,subplots false,grid none figsize 表示影象大小的元組 ...
基於caffe的特徵視覺化
lian jie 最近想看一看卷積神經網路中各層的卷積結果,但在網上搜尋feature visualization並沒能找到通俗易懂的內容。在caffe的官網教程中,有這麼乙個instant recognition with caffe,參照它可以很快的做出視覺化的結果。但感覺裡面還是稍有些複雜,這...
基於vue的視覺化程式設計
vue layout用了muse ui 感覺還不錯。vue layout 流程學習 編譯流程 參考文件 中間preview 最右側控制項列表 components.vue mu select field muse ui mint ui iview ui 我們來看mu select field 這個m...