資料的描述性統計

2021-09-25 10:58:36 字數 3882 閱讀 3442

對資料的描述分為三個維度,分別是:資料的集中趨勢、資料的離中趨勢和資料的分布形態。

描述資料集中趨勢的指標有眾數、中位數和平均數,其中平均數又分為算數平均數、加權平均數和幾何平均數

眾數資料集合**現次數最多的數值被稱為眾數。如果乙個資料集合中,只有乙個數值出現最多,那麼這個數值就是該資料集合的眾數。眾數表示資料集合的資料集中趨勢。例如某個班級有10個學生,這些學生的數學成績集合為,那麼該班級的眾數為87,有4個學生的成績為87。

中位數對於資料集合,將所有的數值按照降序或公升序排序,如果資料集合的數值個數是奇數,那麼最中間的數值就是該集合的中位數;如果資料集合的數值個數是偶數,那麼取最中間兩個數值的算數平均值作為中位數。例如,上面班級10個學生的數學成績公升序排列後為,那麼該班級的中位數為87。

中位數與算數平均值相比,中位數的優勢在於不受資料集合中個別極端值的影響,表現出穩定的特點。這一特點使其在資料集合的數值分布有較大偏斜時,能夠保持對資料集合特徵的代表性。因此,中位數常被用來度量具有偏斜性質的資料集合的集中趨勢。

算數平均數

是最常用的資料集中趨勢指標,表示資料集合的集中趨勢。某一資料集合為,該資料集合的算數平均數的計算公式為:

x ‾=

x1+x

2+⋯+

xn

n\overline=\frac

x=nx1​

+x2​

+⋯+x

n​​​ 算數平均值有其明顯的缺陷,當資料集合中有極大值或極小值存在時,會對算數平均值產生很大的影響,其 計 算結果會掩蓋資料集合的真實特徵,這時算數平均值就失去了代表性。

加權平均數

因為簡單算數平均值認為所有的資料值都具有同等的重要性,所以每個資料值都具有相同的權重。但有些時候,每個資料值的權重是不一樣的,需要用加權算數平均值來表示資料集合的集中趨勢。某一資料集合為,且每個資料的權重為該資料集合的加權平均數的計算公式為:

x ‾=

x1w1

+x2w

2+⋯+

xnwn

n\overline=\frac

x=nx1​

w1​+

x2​w

2​+⋯

+xn​

wn​​

由以上公式可知,算數平均數每個數值的權重都為1,即每個數都有相同的重要性,是加權平均數的一種特殊形式。

幾何平均數

有些資料之間的關係不是加減關係,而是乘除關係。此時,應該用幾何平均數來表示由這樣的資料組成的資料集合的集中趨勢。某一資料集合中的數值分別為,切所有的數值均大於0,那麼該資料集合的幾何平均數的計算公式為:

x j‾

=x1x

2⋯xn

n\overline=\sqrt[n]

xj​​=n

x1​x

2​⋯x

n​​離中趨勢指標可以與集中趨勢指標互補,展示資料集合的離散情況。在同類離散指標的比較中,離散指標的數值越小,說明資料集合的波動程度越小;離散指標的數值越大,說明資料集合的波動程度越大。

描述資料離中趨勢的指標根據資料型別的不同分為:方差、標準差、分位數、四份位數、異眾比率等。下面就針對不同型別的資料來分析不同的指標。

數值型資料的離中趨勢指標有方差,標準差,極差,平均差等。

極差:又被稱為全距,是指資料集合中最大值與最小值的差值,表示整個資料集合能夠覆蓋的數值距離(範圍)。若有資料集合,全距的計算公式為:

r =x

max−

xmin

r=x_-x_

r=xmax

​−xm

in​極差與算數平均值對比,檢視資料集合的離散和集中程度。

平均差:離散程度是乙個相對概念,需要通過與參考值的對比才能表示出離散程度。因為算數平均值是最重要也是最常用的集中趨勢指標,所以均值也就自然能夠成為參考值。對於任意乙個資料集合,表示其離散程度的一種容易想到的度量方式就是與算數平均值的偏離,平均差就是這樣一種度量指標。平均差的計算公式為:

r a=

∑i=1

n∣xi

−x‾∣

nr_a=\frac^|x_i-\overline|}

ra​=n∑

i=1n

​∣xi

​−x∣

方差:方差利用平方消除了離差和等於0的問題,與平均差的絕對值有異曲同工之妙。但方差的侷限性是,方差誇大了資料集合的離散程度。存在資料集,假設資料均值為μ,那麼方差σ2的計算公式為:

σ 2=

∑i=1

n(xi

−μ)2

nσ^2=\frac^(x_i-μ)^2}

σ2=n∑i

=1n​

(xi​

−μ)2

標準差:為了消除方差的侷限性,可以取方差的算數平方根來描述資料的離散程度。標準差是方差的平方根,其公式為:

σ =∑

i=1n

(xi−

μ)2n

σ=\sqrt\frac^(x_i-μ)^2}

σ=n∑i=

1n​(

xi​−

μ)2​

​順序資料的離中趨勢指標主要是分位數、四分位差。

分位數(quantile):也稱之為分位點,是指將乙個隨機變數的概率分布範圍分為幾個等份的數值點,常用的有中位數(即二分位)、四分位數、百分位數等。

四分位數(quartile),即把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就時四分位數。

第一四分位數(q1),又稱為較小四分位數,等於該樣本所有數值由小到大排列後第25%的數字;

第二四份位數(q2),又稱為中位數,等於該樣本所有數值由小到大排列後第50%位置的數字;

第三四份位數(q3),又稱為較大四份位數,等於該樣本所有數值由小到大排列後第75%的數字。

第一四份位數和第三四份位數的差距又稱為四分位差。

四分位差:分位數中比較常用的是四分位差。從分位數的概念可知q1、q2、q3這三個四份位數將資料集合分成四等分。四分位差就是q1與q3的差,這個差值區間包含了整個資料集合50%的資料值。

對於分類資料通常用異眾比率來描述資料的離散程度。

異眾比率:指的是總體中非眾數次數與總體全部次數之比,也就是非眾數的資料個數佔總體資料個數的比例。異眾比率用於衡量眾數對一組資料的代表程度。異眾比率越大,說明非眾數的頻數佔總頻數的比重越大,眾數的代表性就越差;異眾比率越小,說明非眾陣列的頻數站總頻數的比重越小,眾數的代表性越好。

方差和標準差雖然能夠表示資料集合中每個數值距離算數平均值的平均偏差距離,但是這個距離的大小程度卻不能很好的展現,特別是對於算數平均值不同的兩個資料集合。如果兩者的方差和標準差相等時,那麼到底哪個資料集合的離散程度更高、更低或相同?這時就可以通過離散係數來衡量,離散係數主要用於比較不同樣本資料的離散程度。離散係數大,說明資料的離散程度也大;離散係數小,說明資料的離散程度也小。

離散係數為標準差σ與平均值μ之比:

v =σ

μv=\frac

v=μσ

​資料的三個描述維度是資料的分布形態,通過分布形態可以比較形象觀察資料。而資料的分布形態中正態分佈是最常用的,但實際上,資料的分布形態各異。為了衡量資料分布與正態分佈的偏離程度,就引入了偏態和峰態的概念,它們對應的指標分別為偏態係數和峰態係數。

偏態和偏態係數

偏態,是研究資料分布對稱的統計量。通過偏態係數來測量資料分布的不對稱程度以及方向。

峰態和峰態係數

峰態,是研究資料分布陡峭或平滑的統計量,通過峰態係數來測量資料分布相對於正態分佈而言是陡峭還是平緩。

參考文獻

人人都會資料分析:從生活例項學統計

關於偏度與峰度的一些探索

描述性統計

上一節,我們談了資料視覺化,並且用python 對影象進行了簡單的實現。但是,這僅僅使得我們對資料分布的形狀和特徵有了乙個大概的了解。想要全面了解資料分布的特徵,還需要找到反應資料分布特徵的各個代表值。資料分布的特徵可以從三個方面進行測度和描述 1 分布的集中趨勢,反應各資料向其中心值靠攏或聚集的程...

描述性統計

眾數 一組資料 現最多的變數值 中位數 一組資料排序後處於中間位置上的變數值 分位數 四分位數 十分位數 百分位數 平均數 一組資料相加後除以資料個數的結果值 各變數值倒數的平均倒數,稱為調和平均數 n個變數值乘積的n次方根,稱為幾何平均數 眾數是一組資料分布的峰值,是一種位置代表值,不受值極端的影...

描述性統計

資料分布特徵可以從以下三個方面來描述 資料的水平,反應資料的集中程度 資料的差異,反應資料的離散程度 資料的分布形狀,反應數分布的偏態和峰態。描述資料水平的統計量 平均數 中位數 分位數 眾數。1.1.1 概念 1.1.2 優缺點1.2.1 眾數 1.2.2 中位數 1.2.3 分位數 分位數與中位...