中心極限定理用通俗的話來講就是,假設有乙個服從(μ,σ2)的總體,這個總體的分布可以是任意分布,不用是正態分佈,既可以是離散的,也可以是連續的。我們從該分布裡隨機取n個樣本x1,x2,...,xn,然後求這些樣本的均值x_mean,這個過程我們重複m次,我們就會得到x_mean_1,x_mean_2,...,x_mean_m,如果n-->∞,這些樣本的均值服從n(μ,σ2/n)的正態分佈。
舉例:我有1000個蘋果,它們的重量服從μ=100,σ2=50的分布,每次從中隨機的抽取5個蘋果稱重:
第一次選取的5個蘋果的重量為:(89,78,101,22,150),均值x_mean_1=88
第二次。。。。。
第m次選取的5個蘋果的重量為:(77,90,34,88,140),均值x_mean_m=99.2
那這m次的樣本的均值的分布為μ_mean = μ = 100, σ2_mean = σ2 / 5 = 50 / 5 = 10
以下是我們用r語言模擬該過程:
library(moments)
options(digits = 3)
options(scipen = 200)
x = rexp(10000, rate=1)# 原始分布,可以隨便設定,我設定的是乙個指數分布
x_mean = mean(x) # 原始分布的均值
x_var= var(x) # 原始分布的方差
m=10000 # 抽取的次數
par(new=true)
par(mfrow=c(2,3))
list_result = list()
for(n in c(5,10,50,100,500,1000))
s_mean = mean(s)# 樣本均值的均值
s_var = var(s)# 樣本均值的方差
hist(s,breaks = 50,main = paste('n = ',n,sep=''))
result =c(
n,x_mean,
s_mean,
x_var,
s_var,
x_var/n,
skewness(s),# 偏度
kurtosis(s)) # 峰度
cat(result)
cat('n')
}hist(x)
以下是選擇不同的n時樣本均值的分布圖,可以看到隨著n的變大,分布圖越來越接近正態分佈:
從以下的列表可以看出,隨著n的增大,樣本均值的均值越來越接近總體的均值,樣本均值的分布的偏度越來越小,越符合正態分佈。
例1題目:你從
200,000
蘋果裡挑出
36個蘋果作為樣本,這
36個樣本的均值是
112g
,標準差是
40g,那麼這
200,000
個蘋果的均值在
100g
到124g
之間的概率為多少?
分析:這裡給出乙個樣本集的情況,這36個樣本(或者n=36的一次樣本集取樣中
)的均值是
112,這36個樣本的σ=40。注意這裡給出的是乙個樣本集的情況,不是多個樣
本集的sampling
distribution of the sample mean。
我們知道,抽樣分布的均值等於總體的均值,
從樣本的方差,可以估算總本方差
還記得無偏差樣本方差嗎?是除以n-1,而不是n,無偏差樣本方差,可以近似為總本
方差σ2,
所以總體
200,000
個蘋果的方差可以認為是樣本的方差,標準差為
40g。
進而可得樣本均值的方差
為σ2/n=40
*40/36
,標準差即為
6.67
這個題目的相當於
根據上面的公式我們可以認為題目求的是對於乙個特定的抽樣均值,我們求其在抽樣均值的均值
12附近的概率。
由於樣本均值的分布接近與正態分佈,所以我們可以利用
z-score
來算概率,
z-score=12/6.67=1.8
,用z-table
可得此區間的概率是
0.9641
,但是注意這是單尾的值,雙尾的值為(
0.9641-0.5
)*2=0.9282。
所以200,000
個蘋果的均值在
100g
到124g
之間的概率為
92.8%。 例2
題目:成年男性在戶外活動平均要喝2l的水,標準差為0.7l,如果50個男性戶外活動,準備110l的水,不夠喝的概率是多少?
分析:總體服從μ=2,σ=0.7。
題目問的是50個男性喝的水超過110l的概率,也就是說平均乙個人喝水超過2.2l的概率,這也就是樣本均值。從中心極限定理我們知道,那麼樣本均值服從μ_m = μ = 2,σ_m = σ/sqrt(50) = 0.099的正態分佈。
所以本題也就是求:
同理我們求z-score = (2.2-2)/0.099 = 2.02,通過檢視z-table可以看到概率為:0.9861,所以水不夠喝的概率為1.39%
附錄:
中心極限定理 講講中心極限定理
今天我們來聊聊統計學裡面比較重要的乙個定理 中心極限定理,中心極限定理是指 現在有乙個總體資料,如果從該總體資料中隨機抽取若干樣本,重複多次,每次抽樣得到的樣本量統計值 比如均值 與總體的統計值 比如均值 應該是差不多的,而且重複多次以後會得到多個統計值,這多個統計值會呈正態分佈。還是直接來看例子吧...
概率統計 中心極限定理
什麼是中心極限定理 中心極限定理central limit theorem 設從均值為 方差為 2 有限 的任意乙個總體中抽採樣本量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從均值為 方差為 2 n的正態分佈。注意 原來的分布不一定要符合正態分佈,可以是任何的分布,可以是離散也可以是連續,即...
中心極限定理
中心極限定理是統計學中又一非常重要的性質。什麼是中心極限定理,為了很直觀的理解它我就通過舉例的方式來進行說明。假設有乙個總體t,現在我從t中隨機抽取k個含有n個元素的樣本s,s1,s2,sk 每個樣本s1 x1,x2.xn s2 x1,x2,xn sk x1,x2,xn 每個樣本的均值為x1,x2,...