資料描述性統計度量方法

2022-09-13 22:57:39 字數 1633 閱讀 3789

資料描述性統計度量主要包括:集中趨勢和離散趨勢

集中趨勢的度量主要包括:均值、眾數、中位數

均值擴充套件:

(1) 帶權平均值:

權重反應的是樣本在總體樣本中的意義、重要性或出現的頻率。

帶權平均值主要用於應對不同樣本的權重不一樣。

(2) 截尾平均值:

截尾均值是指丟棄極端樣本值後的均值。主要用於抵消少數極端值的影響。

應對於不同的資料型別時,均值、中位數和眾數所能表示的集中趨勢度量可靠性不同:

小技巧:對於適度傾斜(非對稱)的單峰數值資料,平均數減眾數約等於三倍的平均數減中位數。

離散趨勢的度量主要包括:極差、方差、標準差

方差計算簡化公式:

標準差的意義:為彌補方差數值與樣本的單位不同而造成的無法準確表示相差數值的遺憾,如,當樣本單位為m時,方差數值的單位為m2,而標準差與樣本單位相同。

資料通常不能直觀的被人所感知,通過將資料視覺化為圖形時,可使人更容易理解和察覺資料隱含的意義。

常用統計圖對比:

(1) 直方圖

(2) 箱線圖

(3) 莖葉圖

莖葉圖可以在保留全部資料資訊的情況下,直觀地顯示出資料的分布情冴

(4) 線圖

線圖即為曲線圖和折線圖

(5) 柱形圖(條形圖)

顯示一段時間內的資料變化或者顯示各項資料在同一情況下的比較情況

柱形圖與直方圖的對比:

(5) 餅圖

顯示一段時間內的資料變化或者顯示各項資料在同一情況下的比較情況

描述性統計

上一節,我們談了資料視覺化,並且用python 對影象進行了簡單的實現。但是,這僅僅使得我們對資料分布的形狀和特徵有了乙個大概的了解。想要全面了解資料分布的特徵,還需要找到反應資料分布特徵的各個代表值。資料分布的特徵可以從三個方面進行測度和描述 1 分布的集中趨勢,反應各資料向其中心值靠攏或聚集的程...

描述性統計

眾數 一組資料 現最多的變數值 中位數 一組資料排序後處於中間位置上的變數值 分位數 四分位數 十分位數 百分位數 平均數 一組資料相加後除以資料個數的結果值 各變數值倒數的平均倒數,稱為調和平均數 n個變數值乘積的n次方根,稱為幾何平均數 眾數是一組資料分布的峰值,是一種位置代表值,不受值極端的影...

描述性統計

資料分布特徵可以從以下三個方面來描述 資料的水平,反應資料的集中程度 資料的差異,反應資料的離散程度 資料的分布形狀,反應數分布的偏態和峰態。描述資料水平的統計量 平均數 中位數 分位數 眾數。1.1.1 概念 1.1.2 優缺點1.2.1 眾數 1.2.2 中位數 1.2.3 分位數 分位數與中位...