統計學之中心極限定理和置信區間

2021-09-16 21:26:33 字數 1712 閱讀 3607

本文介紹中心極限定律和置信區間。

首先是中心極限定理。中心極限定理是統計學中比較重要的乙個定理。 只有真正理解了中心極限定理才能更好的理解統計學中其他的知識,比如正態分佈。

中心極限定理指的是給定乙個任意分布的總體。我每次從這些總體中隨機抽取 n 個抽樣,一共抽 m 次。 然後把這 m 組抽樣分別求出平均值。 這些平均值的分布接近正態分佈。

我們先舉個栗子?現在我們要統計全國的人的體重,看看我國平均體重是多少。當然,我們把全國所有人的體重都調查一遍是不現實的。所以我們打算一共調查1000組,每組50個人。 然後,我們求出第一組的體重平均值、第二組的體重平均值,一直到最後一組的體重平均值。中心極限定理說:這些平均值是呈現正態分佈的。並且,隨著組數的增加,效果會越好。 最後,當我們再把1000組算出來的平均值加起來取個平均值,這個平均值會接近全國平均體重。

其中要注意的幾點:

總體本身的分布不要求正態分佈

上面的例子中,人的體重是正態分佈的。但如果我們的例子是擲乙個骰子(平均分布),最後每組的平均值也會組成乙個正態分佈。(神奇!)

樣本每組要足夠大,但也不需要太大

取樣本的時候,一般認為,每組大於等於30個,即可讓中心極限定理發揮作用。

話不多說,我們現在來一步步看到中心極限定理是如何起作用的。

直接python實現

import numpy as np 

random_data = np.random.randint(1, 7, 10000)

print random_data.mean() # 列印平均值

print random_data.std() # 列印標準差

後面再現在我們抽取若干組(比如3000),每組60個。我們把每組的平均值都算出來。然後資料視覺化處理後發現,平均值呈現正態分佈。

首先介紹泰勒展式:

通過這個模擬我們可以這樣理解大數定律和中心極限定理:

1、大數定律和中心極限定理可以看做隨機變數的零階和一階「泰勒展開」,其中大數定律是隨機變數的「零階估計」,中心極限定理是在大數定律成立下的「一階導數」,在極限下高階小量可忽略。

2、大數定律負責給出估計——期望,中心極限定理負責給出大數定律的估計的誤差——標準差乘以標準正態分佈。

3、通過泰勒展開我們可以對中心極限定理的應用範圍有乙個直觀的估計。為了使泰勒展開成立,我們假設了高階小量

置信區間是一種常用的區間估計方法,所謂置信區間就是分別以統計量的置信上限和置信下限為上下界構成的區間 [2]

。對於一組給定的樣本資料,其平均值為μ,標準偏差為σ,則其整體資料的平均值的100(1-α)%置信區間為(μ-ζα/2σ , μ+ζα/2σ) ,其中α為非置信水平在正態分佈內的覆蓋面積 ,ζα/2即為對應的標準分數。

舉個例子,假設全班考試的平均分數為65分,則有如下**中的理解:

置信區間

間隔寬窄度

表達的意思

0-100分

100寬

等於什麼也沒告訴你

30-80分

50較窄

你能估出大概的平均分了(55分)

60-70分10窄

你幾乎能判定全班的平均分了(65分)

我想通過上面這個**就能很直觀的理解置信區間!

是否可以結合中心極限定理來更本質的理解正態分佈?

統計學初識之中心極限定理和置信區間

中心極限定理 central limit theorem 設從均值為 中心極限定理要求 在統計學中,由於正態分佈有著十分重要的地位,因此常把證明其極限分布為正態分佈的定理統稱為中心極限定理。最早的中心極限定理是在18世紀由德莫伏證明的,即二項分布以正態分佈為其中心極限定理。現在敘述的中心極限定理是1...

統計學 置信區間

假設我們想直到1000個人的平均身高。但是對1000人分別進行身高測量太麻煩。所以我們選擇100人樣本進行估計。估計可以是點估計 估計確切身高數 也可以是區間估計 估計確切身高的範圍 區間估計更為科學,所以這裡我們選擇區間估計。要估計就要考慮估計的準確度,我們實現確定95 的估計準確度。95 準確度...

統計學筆記1 置信區間

作為資料科學的重要基礎學科,我開始share統計學的學習筆記。單個正態總體,總體方差已知,均值的置信區間,基於中心極限定理 標準正態分佈,適用於樣本量大的情況 n 100 單個正態總體,總體方差未知,均值的置信區間,基於t分布,適用於樣本量較小的情況 bootstrap,通過數值模擬求置信區間 bo...