中心極限定理

2022-08-10 05:15:18 字數 1744 閱讀 8224

中心極限定理指的是給定乙個任意分布的總體。每次從這些總體中隨機抽取 n 個抽樣,一共抽 m 次。 然後把這 m 組抽樣分別求出平均值。 這些平均值的分布接近正態分佈。

我們先舉個栗子

現在我們要統計全國的人的體重,看看我國平均體重是多少。當然,我們把全國所有人的體重都調查一遍是不現實的。所以我們打算一共調查1000組,每組50個人。 然後,我們求出第一組的體重平均值、第二組的體重平均值,一直到最後一組的體重平均值。中心極限定理說:這些平均值是呈現正態分佈的。並且,隨著組數的增加,效果會越好。 最後,當我們再把1000組算出來的平均值加起來取個平均值,這個平均值會接近全國平均體重。

其中要注意的幾點:

1.總體本身的分布不要求正態分佈

上面的例子中,人的體重是正態分佈的。但如果我們的例子是擲乙個骰子(平均分布),最後每組的平均值也會組成乙個正態分佈。(神奇!)

2.樣本每組要足夠大,但也不需要太大

取樣本的時候,一般認為,每組大於等於30個,即可讓中心極限定理發揮作用。

話不多說,我們現在來一步步看到中心極限定理是如何起作用的。

第一步, 生成資料

假設我們現在觀測乙個人擲骰子。這個骰子是公平的,也就是說擲出1~6的概率都是相同的:1/6。他擲了一萬次。我們用python來模擬投擲的結果:

平均值接近3.5很好理解。 因為每次擲出來的結果是1、2、3、4、5、6。 每個結果的概率是1/6。所以加權平均值就是3.5。

第二步,畫出來看看

我們把生成的資料用直方圖畫出來直觀地感受一下:

可以看到1~6分布都比較平均,不錯。

第三步,抽一組抽樣來試試

我們接下來隨便先拿一組抽樣,手動算一下。例如我們先從生成的資料中隨機抽取10個數字:

平均值:3.9

標準差:1.51

可以看到,我們只抽10個的時候,樣本的平均值(3.9)會距離總體的平均值(3.5)有所偏差。

有時候我們運氣不好,抽出來的數字可能偏差很大,比如抽出來10個數字都是6。那平均值就是6了。 為什麼會出現都是6的情況呢?因為這就是隨機的魅力呀!

不過不要擔心,接下去就是見證奇蹟的時刻。

第四步,見證奇蹟的時刻

我們讓中心極限定理發揮作用。現在我們抽取1000組,每組50個。

我們把每組的平均值都算出來。

我們把這1000個數字用直方圖畫出來:

結果列印如下:

平均值:3.46508

標準差:1.68772

在實際生活當中,我們不能知道我們想要研究的物件的平均值,標準差之類的統計引數。中心極限定理在理論上保證了我們可以用只抽樣一部分的方法,達到推測研究物件統計引數的目的。

在上文的例子中,擲骰子這一行為的理論平均值3.5是我們通過數學定理計算出來的。而我們在實際模擬中,計算出來的樣本平均值的平均值(3.48494)確實已經和理論值非常接近了。

中心極限定理 講講中心極限定理

今天我們來聊聊統計學裡面比較重要的乙個定理 中心極限定理,中心極限定理是指 現在有乙個總體資料,如果從該總體資料中隨機抽取若干樣本,重複多次,每次抽樣得到的樣本量統計值 比如均值 與總體的統計值 比如均值 應該是差不多的,而且重複多次以後會得到多個統計值,這多個統計值會呈正態分佈。還是直接來看例子吧...

中心極限定理

中心極限定理是統計學中又一非常重要的性質。什麼是中心極限定理,為了很直觀的理解它我就通過舉例的方式來進行說明。假設有乙個總體t,現在我從t中隨機抽取k個含有n個元素的樣本s,s1,s2,sk 每個樣本s1 x1,x2.xn s2 x1,x2,xn sk x1,x2,xn 每個樣本的均值為x1,x2,...

中心極限定理

中心極限定理指的是 給定乙個任意分布的總體。每次從這些總體中隨機抽取 n 個抽樣,一共抽 m 次。然後把這 m 組抽樣分別求出平均值。這些平均值的分布接近正態分佈。我們先舉個栗子 現在我們要統計全國的人的體重,看看我國平均體重是多少。當然,我們把全國所有人的體重都調查一遍是不現實的。所以我們打算一共...