一、置信區間與置信水平
在做實驗時,即使實驗條件再準確,也無法避免隨機干擾的影響,所以誤差永遠存在,無可避免。做科學實驗時要測量多次,採取取平均值的方法。在科學實驗的測量結果上,總是會加上乙個測量範圍。
統計學核心思想:用樣本資訊來估計總體資訊
之前我們用樣本給出乙個精確值來估計總體,這個點估計值是有價值的,但可能存在誤差,因為有估計就會有誤差,誤差不可避免但是可以減少。
點(精確值)誤差 > 區間(範圍)誤差
點估計圖中橫軸是不同樣本的平均值從小到大,紅色虛線表示要求的總體平均值,假設將抽樣的過程重複5次,那麼就有了5個樣本,可以算出5個樣本平均值的點估計,也就是藍色的點代表總體樣本。
如果圖中有許多藍色的點,每乙個藍色的點都是對總體平均值的一次點估計,這麼多點估計,我們是分辨不出那個點估計更好的,也就是說,我們無法知道估計的準確程度是多少,反過來說,我們是不知道誤差範圍的,為了解決點估計存在的問題,需要運用區間估計。
假如想要知道全國男性的平均身高,這只能通過抽樣的方法,用樣本資訊估計出總體資訊,從全國成年男性中隨機抽取乙個樣本,這個樣本的平均值就是對總體平均值的一次點估計,當有多個樣本時具有多個點估計,由於無法判別那個點估計對總體估計的誤差範圍更小,所以要用區間估計來解決這個問題。
比如說,全國成年男性的平均身高在165cm~175cm這個區間[165, 175],那麼這個區間就叫做置信區間。
置信區間是統計中一種區間估計的方法。用[a , b]表示樣本估計總體平均值誤差範圍的區間,由於a和b的確切數值取決於我們希望自己對於這個區間包含總體平均值這一結果具有的可信程度,因此這個區間叫做置信區間。
有五個樣本,樣本的總體平均值是上圖中的藍色點,對樣本的總體平均值使用某種方法,構造乙個置信區間,則5個樣本的平均值就有五個置信區間,也就是圖中黃色和紅色的橫線,哪一根橫線更好呢,我們任然不知道,但是和點估計相比,因為這次是按照95%的置信水平構造出的區間估計,那麼我們可以相信,圖中除了紅色那根線,沒有包含總體平均值之外,其他線都包含了總體平均值。這個結論的相信程度有多大呢?也就是說,如果有100個樣本,可以構造出100個這樣的區間,其中大約有95個區間會包含總體平均值。這也解釋了什麼是置信水平。
置信水平是指包含總體平均值的概率是多大,例如:95%的置信水平表示,如果有100個樣本,可以構造出100個這樣的區間,有95%的可能性包含總體平均值。所以說,如果只做一次抽樣,那麼這個樣本包含總體平均值的概率也是95%。
二、大樣本計算置信區間的四個步驟
1. 確定要求解的問題
用樣本資訊估計總體資訊
2. 求樣本的平均值和標準誤差
當樣本大小大於30時抽樣分布符合中心極限定理,也就是抽樣分布是正態分佈的
總體標準差不知道,但可以用樣本標準差來估計總體標準差,標準誤差其實也是標準差,只不過標準誤差的計算物件是所有的「樣本平均值」,標準誤差是用來衡量所有的「樣本平均值」的波動大小
3. 確定置信水平
置信水平取多大,完全取決於具體情況,以及對區間中包含總體平均值這一說法有多大信心。
置信水平越高,區間越寬,置信區間包含總體平均值的概率也就越大。常用的置信水平為95%。
根據中心極限定理,不管總體服從什麼分布,任意乙個樣本的平均值都會圍繞在總體平均值周圍呈現正態分佈,所以圖中中間位置的紅色豎線就是總體平均值,根據正態分佈的經驗法則,有95%的樣本平均值會落在兩個標準誤差之內。
4. 求置信區間上下限的值
上圖中上下限ba是根據總體平均值對稱分布的,可以根據求a從而來求b,上圖的距離平均值的幾個標準誤差就是幾個標準分,只要求出a對應的標準分是多少就可以了,用z來表示標準分,那麼如何求z的值呢?
下圖是求z的值的方法
根據中心極限定理,樣本平均值約等於總體平均值。根據上圖就可以求出ab了
置信區間公式中的z是指其絕對值|z| ,公式修正如下:
a=總體平均值- |z|* 標準誤差
b=總體平均值+ |z|* 標準誤差
大樣本計算置信區間的總結
置信區間公式中的z是指其絕對值|z| ,公式修正如下:
a=總體平均值- |z|* 標準誤差
b=總體平均值+ |z|* 標準誤差
三、小樣本計算置信區間的四個步驟
當樣本大小小於30時,抽樣分布符合t分布,t分布很像正態分佈,曲線較為扁平,有兩條突出的尾巴
上圖中的n指的是樣本大小,df指的是自由度
小樣本的置信區間與大樣本的置信區間只有一點不同,也就是第三步所查詢的**不同
置信區間公式中的t是指其絕對值|t| ,公式修正如下:
a=總體平均值- |t|* 標準誤差
b=總體平均值+ |t|* 標準誤差
自由度是指,可選的樣本大小中,減去最後一次沒有選擇可選的只剩下1個樣本的數量多少。
如:有四種水果,每天選擇吃完一種,到第四天時,只有唯一的一種水果可吃了,此時沒有其他選擇了,這時自由度為3。
求總體標準差的置信區間 置信區間與參考值範圍
誤差永遠存在,而且不可避免。即使實驗條件再精確也無法完全避免隨機干擾的影響,所以做科學實驗往往要測量多次,用取平均值之類的統計手段去得出結果。多次測量,是乙個排除偶然因素的好辦法。如國足輸掉比賽之後經常抱怨偶然因素,有時候是因為裁判不公,有時候是因為主力不在,有時候是因為不適應客場氣候,關鍵是如果你...
python計算置信區間
python 置信區間 置信區間是指由 樣本統計量 所構造的總體引數的估計區間。這句話也就是說 這裡統計量一般指均值 利用樣本均值來估計總體均值的可靠程度,這個 可靠程度 用 置信區間 來表示,置信區間 是乙個係數 取值範圍為 0 置信區間 1 這個置信區間就是用來描述真實的均值發生在某範圍的概率 ...
R語言求單側置信區間或雙側置信區間
interval estimated function x,sigma 1,side 0,alpha 0.05 else if side 0 else df n else else if side 0 else df n 1 data.frame a a,b b 在上述方法中,x是資料構成的向量。s...