中心極限定理指的是
給定乙個任意分布的總體。每次從這些總體中隨機抽取 n 個抽樣,一共抽 m 次。 然後把這 m 組抽樣分別求出平均值。 這些平均值的分布接近正態分佈。
我們先舉個栗子
現在我們要統計全國的人的體重,看看我國平均體重是多少。當然,我們把全國所有人的體重都調查一遍是不現實的。所以我們打算一共調查1000組,每組50個人。 然後,我們求出第一組的體重平均值、第二組的體重平均值,一直到最後一組的體重平均值。中心極限定理說:這些平均值是呈現正態分佈的。並且,隨著組數的增加,效果會越好。 最後,當我們再把1000組算出來的平均值加起來取個平均值,這個平均值會接近全國平均體重。
其中要注意的幾點:
1.總體本身的分布不要求正態分佈
上面的例子中,人的體重是正態分佈的。但如果我們的例子是擲乙個骰子(平均分布),最後每組的平均值也會組成乙個正態分佈。(神奇!)
2.樣本每組要足夠大,但也不需要太大
取樣本的時候,一般認為,每組
大於等於30個
,即可讓中心極限定理發揮作用。
話不多說,我們現在來一步步看到中心極限定理是如何起作用的。
第一步, 生成資料
假設我們現在觀測乙個人擲骰子。這個骰子是公平的,也就是說擲出1~6的概率都是相同的:1/6。他擲了一萬次。我們
用python來模擬投擲
的結果:
平均值接近3.5很好理解。 因為每次擲出來的結果是1、2、3、4、5、6。 每個結果的概率是1/6。所以加權平均值就是3.5。
第二步,畫出來看看
我們把生成的資料用直方圖畫出來直觀地感受一下:
可以看到1~6分布都比較平均,不錯。
第三步,抽一組抽樣來試試
我們接下來隨便先拿一組抽樣,手動算一下。例如我們先從生成的資料中隨機抽取10個數字:
平均值:3.9
標準差:1.51
可以看到,我們只抽10個的時候,樣本的平均值(3.9)會距離總體的平均值(3.5)有所偏差。
有時候我們運氣不好,抽出來的數字可能偏差很大,比如抽出來10個數字都是6。那平均值就是6了。 為什麼會出現都是6的情況呢?因為這就是隨機的魅力呀!
不過不要擔心,接下去就是見證奇蹟的時刻。
第四步,見證奇蹟的時刻
我們讓中心極限定理發揮作用。現在我們抽取1000組,每組50個。
我們把每組的平均值都算出來。
我們把這1000個數字用直方圖畫出來:
結果列印如下:
平均值:3.46508
標準差:1.68772
在實際生活當中,我們不能知道我們想要研究的物件的平均值,標準差之類的統計引數。中心極限定理在理論上保證了我們可以用只抽樣一部分的方法,達到推測研究物件統計引數的目的。
在上文的例子中,擲骰子這一行為的理論平均值3.5是我們通過數學定理計算出來的。而我們在實際模擬中,計算出來的樣本平均值的平均值(3.48494)確實已經和理論值非常接近了。
中心極限定理 講講中心極限定理
今天我們來聊聊統計學裡面比較重要的乙個定理 中心極限定理,中心極限定理是指 現在有乙個總體資料,如果從該總體資料中隨機抽取若干樣本,重複多次,每次抽樣得到的樣本量統計值 比如均值 與總體的統計值 比如均值 應該是差不多的,而且重複多次以後會得到多個統計值,這多個統計值會呈正態分佈。還是直接來看例子吧...
中心極限定理
中心極限定理是統計學中又一非常重要的性質。什麼是中心極限定理,為了很直觀的理解它我就通過舉例的方式來進行說明。假設有乙個總體t,現在我從t中隨機抽取k個含有n個元素的樣本s,s1,s2,sk 每個樣本s1 x1,x2.xn s2 x1,x2,xn sk x1,x2,xn 每個樣本的均值為x1,x2,...
中心極限定理
抽樣調查,通過抽樣檢測這家工廠生產的100塊雞胸肉的沙門氏菌我們就可以知道結論。問題是,我們一概而論的強大能力,到底是從哪來的?絕大部分來自中心極限定理,中心極限定理是許多統計活動的動力源泉,這些統計活動存在著乙個共同的特點,那就是使用樣本對乙個更大的資料集進行推理。那麼能夠體會出的要義就是 乙個大...