關於樣本標準差(SD)與樣本標準誤差(SE)

2021-08-20 11:55:18 字數 1876 閱讀 7880

許多*****裡經常能看到mean±sd(se)這樣的表達方式,或者在圖表裡用sd或者se來表示error bar,用sd的居多,但是也有不少用se的。初學者很容易混淆sd(standard deviation)和se(standard error)。

sd我們都很清楚,是表達資料的離散程度,然後實際應用中很多資料具有近似正態分佈的概率分布,有了sd,我們就可以大致估計資料的範圍,譬如經典的"68-95-99.7法則",即約 68% 數值分布在距離平均值有 1 個標準差之內的範圍,約 95% 數值分布在距離平均值有 2 個標準差之內的範圍,以及約 99.7% 數值分布在距離平均值有 3 個標準差之內的範圍。如下圖:

se是什麼呢,一般來說,自然界裡很難獲得總體資料,我們只能用樣本(無論是各種實驗還是社會調查抽樣)去近似估計總體,這樣問題就來了,估計的準不准(平均值)?

我們可以理論上這樣做,既然不能獲得總體,我們可以盡可能多(無限)的從標準差為σ的總體資料裡抽取大小為 n 的樣本,每個樣本各有乙個平均值,所有樣本平均值的標準差就可以用"68-95-99.7法則"評估準不准了(這就是所謂的置信區間),樣本平均值的標準差可以被證明如下公式表達:

但由於通常σ為未知,此時可以用研究中取得樣本的標準差 (s) 來估計:

這就是se的**,即樣本平均值的sd,我們用matlab程式設計演示下。

以擲硬幣為例,擲100次,統計正面(1)的次數,共統計1000次作為乙個sample,然後我們這樣採1000個sample(程式不怕累的)。

先貼結果,**放後面。結果如下,我們能看到樣本平均值的sd基本等於樣本的se!

完整**如下:

%1000個樣本(sample)

sample_mean =

for m=1:1000

%擲硬幣100次,統計正面的次數,共統計1000次作為乙個sample

sample =

for i = 1:1000

box = randi([0,1],100,1);

sample = [sample length(box(box==1))];

endsample_mean = [sample_mean mean(sample)];

end%sample的標準差和標準誤

sd_sample = std(sample)

se_sample = sd_sample/sqrt(1000)

%sample平均值的標準差

sd_sample_mean = std(sample_mean)

1、標準差(sd)更能反應離散程度。*****裡需要mean±sd這個資訊,就是便於讀者進行判斷資料的離散性,e.g.,一般我們把偏離平均值2或3個sd的值作為outlier(i.e., 異常值)。

2、標準誤則比較適合用於評估精確性或準確性的問題。

*****裡根據需要也可以提供mean±se這個資訊,就是便於讀者進行判斷資料的不確定性,e.g.,95%置信區間是用的mean ± 2*se。

無論用哪種表達方式,一定要注意標明,特別是error bar,好的*****都會說明這是什麼的。

樣本標準差分母為何是n 1

什麼是標準差?下面看兩組數 28,29,30,31,32 10,20,30,40,50 它們的平均數都是30。這兩組數是一致的嗎?實際上,這兩組數離散程度有很大區別。用numpy模組計算,兩組數的標準差相差10倍 方差是實際值與期望值之差平方的平均值。方差,通俗點講,就是和中心偏離的程度 用來衡量一...

標準差和標準誤的區別

首先標準誤和標準差是有先後的 個人理解 先標準差後標準誤 標準差定義 總體各單位標準值與其平均數離差平方的算術平均數的平方根 即抽取為n個樣本或測量n個結果與其平均值的離差平方算數平方根 n個樣本相對於其平均值分散程度的一種度量,越小均值越具代表性 標準差 方差的開平方 標準差公式 若為樣本標準差則...

標準差 標準誤 偏度係數和峰度係數的作用

標準差和標準誤是兩個不同的概念,標準差就是乙個變數的所有資料的離均差平方和再平均之後開平方,它是度量離散程度的指標。標準誤用於估計引數的可信區間,進行假設檢驗等。它們與樣本含量的關係不同 當樣本含量 n 足夠大時,標準差趨向穩定 而標準誤隨n的增大而減小,甚至趨於0 聯絡 標準差,標準誤均為變異指標...