我們的確可以使用點估計量來估計總體均值、方差或一定比例的精確值,但是我們始終無法確定我們使用的樣本一定是無偏樣本,因此我們考慮使用置信區間的方法來估計總體統計量,因為它是考慮了不確定性的方法。
二、置信區間的簡便演算法
三、特殊情況 —— 總體正態、樣本t分布
糖果公司用乙個包含100粒糖球的樣本得出口味持續時間均值的點估計量為62.7分鐘,於是便在電視節目**時段宣布其公司糖球口味的平均持續時間為62.7分鐘,但有人自行做了測試,得出了不同的結果,威脅要起訴糖果公司。
此時,我們應該制定的是總體均值的估計值的區間範圍,而不是乙個精確值,因為這樣的話會給予我們更大的誤差空間,就不容易被人起訴了。
1、選擇總體統計量
在問題中,需要為糖球口味持續時間的均值來構建區間,於是需要為總體均值μ
\muμ來構建乙個置信區間。
2、求出其抽樣分布
為了求出總體均值的抽樣分布,我們需要先計算出x
‾\overline x
x的期望、方差和分布。而這些在上一節中已經計算過了。
此時乙個問題是我們現在並不知道總體的方差是多少,但是我們可以借用點估計法μ
^\hat
μ^ 或 s
2s^2
s2來近似替代,因為這已經是我們目前所具有的資料中可以得到的最近似的值了。公式進一步推導成如下形式。
對於樣本均值的分布,我們可以根據"若x符合正態分佈,那麼x
‾\overline x
x也符合正態分佈"的定理來得知,其應符合正態分佈。在本題中即是x‾∼
n(μ,
s2n)
\overline x \thicksim n(\mu,\frac)
x∼n(μ,
ns2
)。3、決定置信水平
置信水平表明你希望自己對於「總體統計量落入置信區間」的這一說法有多大的把握,比如我們希望總體均值的執行水平為95%,這表明總體均值處於置信區間的概率為0.95,當然可以更高如99%,這樣糖果公司就可以更有信心在廣告宣稱「總體均值位於這個置信區間」這一說法。
值得注意的是,置信水平越高,區間越寬,也就是確定的概率越大,範圍越廣,也越對說法有把握。
為了防止說法幾乎毫無意義,我們需要確定乙個合適的置信水平,確保範圍小而可靠,對此,我們一般採用95%作為常用置信水平。
4、求出置信上下限
根據抽樣分布和選擇好的置信水平來求出置信上下限,從而確定置信區間的範圍。
此時我們再將x
‾\overline x
x進行標準化,從而利用正態分佈表來查出其對應的區間值。
此時我們將括號裡面的不等式進行展開,即可確定置信區間範圍,其中x
‾\overline x
x可以通過樣本x
‾\overline x
x來計算。
得出最後結果。
1、統計量的抽樣分布符合正態分佈時
2、統計量的抽樣分布符合t分布時
糖果公司想求出糖球重量的置信區間,但只抽取了少量的樣本,比如抽取了乙個具有代表性的樣本,共10顆,然後稱了每一粒糖球的重量,計算出這個樣本的x
‾\overline x
x=0.5,s
2s^2
s2=0.09,此時該如何求出其置信區間。
1、選擇總體統計量
我們需要為糖球重量均值構建乙個置信區間,也就是要為總體均值μ
\muμ構建置信區間。
2、求x
‾\overline x
x的概率分布
當總體符合正態分佈,δ
2\delta^2
δ2未知,且可供支配的樣本很小時,x
‾\overline x
x符合t分布。而當樣本數量為n個時,t分布的形式為t∼t
(n−1
)t\thicksim t(n-1)
t∼t(n−
1),而t =x
‾−us
/nt=\frac}
t=s/n
x−u
,也就是說在這道題中t=x
3、決定置信水平
一般設定為95%。
4、求出μ
\muμ的置信上下限
再利用t分布概率錶可求出p(t
>t)
=pp(t>t)=p
p(t>t)
=p中的t值,在這道題中p=0.025。
統計學 置信區間
假設我們想直到1000個人的平均身高。但是對1000人分別進行身高測量太麻煩。所以我們選擇100人樣本進行估計。估計可以是點估計 估計確切身高數 也可以是區間估計 估計確切身高的範圍 區間估計更為科學,所以這裡我們選擇區間估計。要估計就要考慮估計的準確度,我們實現確定95 的估計準確度。95 準確度...
整理總結 深入淺出統計學 排列與組合
順序是概率計算過程中不可避免的事情,通過學習簡便方法來完成概率計算的高階。2 型別排名 二 部分排列 三 組合 1 個體排名 i 普通排位 現有n匹賽馬,那麼它們所有可能的排列順序為n!ii 圓形排位 現有n匹賽馬,要求所有馬匹圍成一圈。1 如果只考慮馬匹的絕對位置的話,則所有可能排列順序為n 2 ...
統計學筆記1 置信區間
作為資料科學的重要基礎學科,我開始share統計學的學習筆記。單個正態總體,總體方差已知,均值的置信區間,基於中心極限定理 標準正態分佈,適用於樣本量大的情況 n 100 單個正態總體,總體方差未知,均值的置信區間,基於t分布,適用於樣本量較小的情況 bootstrap,通過數值模擬求置信區間 bo...