分析特徵間的關係
2.折線圖
分析特徵內部資料分布與分散狀況
2.餅圖
3.箱線圖
第一部分主要作用是構建出一張空白的畫布,並可以選擇是否將整個畫布劃分為多個部分,方便在同一幅圖上繪製多個圖形的情況。最簡單的繪圖可以省略第一部分,而後直接在預設的畫布上進行圖形繪製。
plt.figure 建立乙個空白畫布,可以指定畫布大小,畫素。第二部分是繪圖的主體部分。其中新增標題,座標軸名稱,繪製圖形等步驟是並列的,沒有先後順序,可以先繪製圖形,也可以先新增各類標籤。但是新增圖例一定要在繪製圖形之後。figure.add_subplot 建立並選中子圖,可以指定子圖的行數,列數,與選中編號。
第三部分主要用於儲存和顯示圖形。
散點圖(scatter diagram)又稱為散點分布圖,是以乙個特徵為橫座標,另乙個特徵為縱座標,利用座標點(散點)的分布形態反映特徵間的統計關係的一種圖形。
值是由點在圖表中的位置表示,類別是由圖表中的不同標記表示,通常用於比較跨類別的資料。
常用引數及說明如下表所示。
折線圖(line chart)是一種將資料點按照順序連線起來的圖形。可以看作是將散點圖,按照x軸座標順序連線起來的圖形。
折線圖的主要功能是檢視因變數y隨著自變數x改變的趨勢,最適合用於顯示隨時間(根據常用比例設定)而變化的連續資料。同時還可以看出數量的差異,增長趨勢的變化。
plot函式在官方文件的語法中只要求填入不定長引數,實際可以填入的主要引數主要如下。
color引數的8種常用顏色的縮寫
直方圖(histogram)又稱質量分布圖,是統計報告圖的一種,由一系列高度不等的縱向條紋或線段表示資料分布的情況,一般用橫軸表示資料所屬類別,縱軸表示數量或者佔比。
用直方圖可以比較直觀地看出產品質量特性的分布狀態,便於判斷其總體質量分布情況。直方圖可以發現分布表無法發現的資料模式、樣本的頻率分布和總體的分布。
常用引數及說明如下表所示。
餅圖(pie graph)是將各項的大小與各項總和的比例顯示在一張「餅」中,以「餅」的大小來確定每一項的佔比。
餅圖可以比較清楚地反映出部分與部分、部分與整體之間的比例關係,易於顯示每組資料相對於總數的大小,而且顯現方式直觀。
matplotlib.pyplot.pie(x, explode=none, labels=none, colors=none, autopct=none, pctdistance=0.6, shadow=false, labeldistance=1.1, startangle=none, radius=none, … )
常用引數及說明如下表所示。
箱線圖(boxplot)也稱箱須圖,其繪製需使用常用的統計量,能提供有關資料位置和分散情況的關鍵資訊,尤其在比較不同特徵時,更可表現其分散程度差異。
箱線圖利用資料中的五個統計量(最小值、下四分位數、中位數、上四分位數和最大值)來描述資料,它也可以粗略地看出資料是否具有對稱性、分布的分散程度等資訊,特別可以用於對幾個樣本的比較。
matplotlib.pyplot.boxplot(x, notch=none, sym=none, vert=none, whis=none, positions=none, widths=none, patch_artist=none,meanline=none, labels=none, … )
大資料分析技術與應用
cda資料分析研究院原創作品 一 大資料概念 大資料 big data 指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。二 大資料的特點 1 volume 大量 截至目前,人類生產的...
python資料分析學習路線
python是一種物件導向 直譯式計算機程式語言,由guido van rossum於1989年底發明。由於他簡單 易學 免費開源 可移植性 可擴充套件性等特點,python又被稱之為膠水語言。下圖為主要程式語言近年來的流行趨勢,python受歡迎程度扶搖直上。用python玩轉資料 由於pytho...
Python資料分析 Pandas學習
dataframe是乙個類似於 的資料型別,如圖 data 方框內的資料 numpy ndarray structured or homogeneous dict,or dataframe index 行索引索引 index or array like columns 列索引 index or ar...