樣本標準差分母為何是n 1

2021-09-07 15:25:30 字數 3524 閱讀 1688

什麼是標準差?下面看兩組數[28,29,30,31,32],[10,20,30,40,50],它們的平均數都是30。這兩組數是一致的嗎?實際上,這兩組數離散程度有很大區別。

用numpy模組計算,兩組數的標準差相差10倍

方差是實際值與期望值之差平方的平均值。方差,通俗點講,就是和中心偏離的程度!用來衡量一批資料的波動大小(即這批資料偏離平均數的大小)並把它叫做這組資料的方差。記作s2。 在樣本容量相同的情況下,方差越大,說明資料的波動越大,越不穩定。標準差就是方差的平方根。方差和標準差用於不同場合,方便計算。

(標準差英文解釋)

方差公式

標準差公式

難點來了,總體標準差和樣本標準差的公式是有區別的,如下圖

樣本標準差公式中,分母是n-1。

為何樣本標準差的分母為何是n-1,而不是n或n-2?

我們用計算機建模,環境anaconda(python2.7)

引數解釋:

sigma表示總體標準差

s表示樣本標準差

ddofvalue=0 表示樣本標準差分母是n

ddofvalue=1 表示樣本標準差分母是n-1

ddofvalue=2 表示樣本標準差分母是n-2

演算法思路:

1.模擬出乙個總體(服從正態分佈的1000個隨機數)

2. 從總體中隨機抽樣(100個隨機數)

3.分別算出總體和樣本的標準差,然後相減得到distance差值

4.迴圈1000次試驗,把1000個distance相加,得到total_distance

5.在步驟3中,分別對樣本標準差的分母取n, n-1,n-2,  最終得到dict_modes

觀察dict_modes,ddof1的絕對值最小3.8

ddof1=1 表示樣本標準差分母是n-1

總結:s樣本標準差的分母採用n-1更加接近真實的總體標準差。通過計算機模擬,我們證明了為什麼樣本標準差的分母n-1比較合適,而不是n或n-2。

源**:

如果允許**有任何問題,請反饋至郵箱[email protected]

# -*- coding: utf-8 -*-

為什麼樣本標準差的分母是n-1

import random

import numpy as np

#試驗次數

trial=1000

#正態分佈總體大小

size_total=1000

#正態分佈樣本大小

size_sample=100

#分母狀態

#ddofvalue=0 表示樣本標準差分母是n

#ddofvalue=1 表示樣本標準差分母是n-1

#ddofvalue=2 表示樣本標準差分母是n-2

list_ddofvalues=[0,1,2]

#返回樣本標準差和總體標準差的距離總和

def total_distance(ddofvalue):

#總體標準差 和樣本標準差的差值

total_distance=0

for i in range(trial):

normal_values=list(np.random.normal(size=size_total))

#總體標準差

sigma=np.std(normal_values,ddof=0)

#隨機抽樣

sample=random.sample(normal_values,size_sample)

s=np.std(sample,ddof=ddofvalue)

distance=sigma-s

total_distance+=distance

return total_distance

#選擇最佳模型

def dict_modes():

distance_ddof0=total_distance(list_ddofvalues[0])  

distance_ddof1=total_distance(list_ddofvalues[1])

distance_ddof2=total_distance(list_ddofvalues[2])

dict_modes={}

dict_modes["ddof0"]=distance_ddof0

dict_modes["ddof1"]=distance_ddof1

dict_modes["ddof2"]=distance_ddof2

return dict_modes

dict_modes=dict_modes()

print dict_modes

for i in range(trial):

normal_values=list(np.random.normal(size=n))

#總體標準差

sigma=np.std(normal_values,ddof=0)

#plt.hist(normal_values)

#隨機抽樣

關於樣本標準差(SD)與樣本標準誤差(SE)

許多 裡經常能看到mean sd se 這樣的表達方式,或者在圖表裡用sd或者se來表示error bar,用sd的居多,但是也有不少用se的。初學者很容易混淆sd standard deviation 和se standard error sd我們都很清楚,是表達資料的離散程度,然後實際應用中很多...

均值,方差,標準差

對於一維資料的分析,最常見的就是計算平均值 mean 方差 variance 和標準差 standard deviation 在做 特徵工程 的時候,會出現缺失值,那麼經常會用到使用 平均值 或者 中位數等進行填充。平均值平均值的概念很簡單 所有資料之和除以資料點的個數,以此表示資料集的平均大小 其...

方向分布(標準差橢圓)

點模式的分析中,一般會考察如下五種內容 1 點的疏密,包括點資料的分布探索,是否一致 均勻或者不均勻。2 點的方位,包括點的分布和方向。3 點的數量 多少 極值和均值 4 點的大小 代表的含義 如點乙個點代表多少人口 5 其他,如點的一些動態變化等。其中,我們前面說的好幾種演算法,如中心要素 中位數...