某一地區的人群生長環境相似,我們隨機選20個男性,量出他們的身高,近似地服從正態分佈。
正態分佈,即高斯分布,是自然界最常見的資料分布了。
用均值、標準差來確定乙個正態分佈概率密度圖。比如n(-2,0.5),就是均值為-2,標準差為0.5的正態分佈。而n(0,1)稱為標準正態分佈。
這裡給出r應用
//假設當在居民的身高正態分佈均值為170cm,標準差為10,身高低於160的概率為
pnorm(160,170,10)
//身高在170~180之間的概率為
pnorm(180,170,10)
-pnorm(170,170,10)
通常,由於總體過大,我們以樣本為研究物件,並用樣本的統計量估算總體的統計量。
比如,我們根據樣本均值,估算出總體均值。
我們從總體中100取出多個樣本,每個樣本10條資料,取每個樣本的均值,得到100個樣本均值。當樣本均值夠多時,就會發現這些樣本均值服務正態分佈。取這個樣本均值的正態分佈的均值,理論上最接近總體均值了。這就是大數定理,即,中心極限定理。
上面提到的樣本均值,算是一種樣本統計量。
就是說,當我們在乙個資料集中抽出多個樣本時,這些樣本的樣本統計量會服從固定的抽樣分布。
這樣,我們只要看抽樣分布與假定的總體分布差距大小,就知道總體分布的情況了。
常見的三大抽樣分布:卡方分布、t分布、f分布,都是基於正態分佈匯出的,用來檢驗正態總體。
還是上面的人群身高的例子。假如那個地區的人們說自己當地男性的平均身高是170cm,但我們觀察到的情況是低於170的人比較多,於是我們假設居民平均身高低於170cm,並來檢驗一下這個假設。
我們測量20男性的身高當作樣本。已知總體身高服從正態分佈,總體均值為170cm,我們只要用t分布來檢驗樣本均值和總體均值差距是否大,就可以知道當在居民是否說謊了。
//樣本資料
h<-c(1.69,1.68,1.70,1.71,1.67,1.69,1.68,1.70,1.70,1.68,1.65,1.73,1.66,1.70,1.68,1.69,1.69,1.68,1.69,1.68);
//做t檢驗。假設居民平均身高低於170cm,並來檢驗一下這個假設
t.test(h,m=1.70,alternative = "less")
以下是t檢驗的輸出結果
從t檢驗結果可以看出:data: hone sample t-test
t = -3.2065, df = 19, p-value = 0.002323
alternative hypothesis: true mean is less than 1.7
95 percent confidence interval:
-inf 1.694241
sample estimates:
mean of x
1.6875
樣本均值為1.6875。
在t分布圖上,t值-3.2065對應的概率p值為0.002323。使用0.005的顯著性水平的話,由於p值小於顯著性水平,表明假設錯誤的概率很低。可以說,平均身高應該是低於170cm的,且估計錯誤的概率低於0.005。
上面的例子我們使用了單尾檢驗模式中的less,即假設總體均值小於170cm。還有兩種模式:greater、two-side,分別表示樣本均值大於總體均值,不等於總體均值。
這裡看下r**
//假設居民平均身高高於170cm,並來檢驗一下這個假設
t.test(h,m=1.70,alternative = "greater")
one sample t-test可以得出結果,由於t = -3.2065對應的p值沒有小於顯著水平0.005,假設不成立。data: h
t = -3.2065, df = 19, p-value = 0.9977
alternative hypothesis: true mean is greater than 1.7
95 percent confidence interval:
1.680759 inf
sample estimates:
mean of x
1.6875
上面例子是樣本與總體預估均值的對比檢驗,接下看下兩個樣本之間的對比檢驗。
還是拿身高的例子來說,這裡我們要研究飲用水源對身高的影響,選了相同地區兩村子的居民做樣本來研究。乙個村子喝地下水,乙個村子喝河水,分別測量20名男性身高,做對比。因為有人聲稱喝河水的民民普遍長的高,我們就來檢驗一下假設。
//喝地下水的居民身高
h1<-c(1.69,1.68,1.70,1.71,1.67,1.69,1.68,1.70,1.70,1.68,1.65,1.73,1.66,1.70,1.68,1.69,1.69,1.68,1.69,1.68);
//喝河水的居民身高
h2<-c(1.69,1.69,1.70,1.71,1.67,1.68,1.68,1.70,1.70,1.68,1.64,1.73,1.66,1.71,1.68,1.69,1.69,1.68,1.67,1.69);
//假設喝河水的居民比喝地下水的居民高
t.test(h1,h2,alternative = "less")
welch two sample t-test從檢驗結果來看,t = 0.085501在t分布圖上對應的概率p為0.5338,沒有低於顯著水平0.05,假設不成立。data: h1 and h2
t = 0.085501, df = 37.536, p-value = 0.5338
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
-inf 0.01036226
sample estimates:
mean of x mean of y
1.6875 1.6870
上面的幾個例子可以使用t檢驗我們的各種假設,是因為我們確定身高資料服從正態分佈,否則所有的檢驗就無效了。
實際應用過程中,可以這樣檢驗資料是否服從正態分佈:
shapiro.test(h)
shapiro-wilk normality test從輸出結果來看,由於p值大於顯著性水平0.05,所以可以判定資料集h服從正態分佈。data: h
w = 0.94791, p-value = 0.3365
所有檢驗都不是100%正確。比如下面這段r**:
shapiro.test(1:30)//輸出為:0.2662
shapiro.test(1:50)//輸出為:0.05809
前面有關身高的例子中,以p小於顯著性水平0.05來判斷假設是否成立,而關於正態分佈檢驗的例子中,以p大於顯著性水平0.05來判斷是否滿足正態分佈。真正的標準是什麼?
p<0.05是拒絕是零假設,承認備選假設;p>0.05是無法拒絕零假設。重點在於選擇的零假設和備選假設是什麼。
從 高斯 到 正態分佈 到 Z分布 到 t分布
正態分佈是如何被高斯推導出來的,我感覺高斯更像是猜出了正態分佈。詳見這篇文章 正態分佈的前世今生 說一說理解高斯推導過程中的難點 1.log函式的出現 log函式的出現能把連乘化為求和方便計算,而且log是一對一的函式,不會損失資訊量 推導中的log即 ln 2.為了求極大似然,高斯其實做了乙個逆向...
python 累積正態分佈函式 截斷正態分佈
截斷正態分佈 truncated normal distribution 是在正態分佈中界定隨機變數進而從正態分佈的分布函式中匯出的概率分布,在計量經濟學中具有廣泛的應用。正態分佈是定義在實數域的概率分布,而截斷正態分佈顧名思義就是在正態分佈中擷取部分區間的概率。截斷正態分佈的定義如下 由截斷正態的...
正態分佈函式
1 使用matlab畫出正態分佈的概率密度函式影象。x 10 0.01 10 y normpdf x,0,1 正態分佈函式。figure axes1 axes pos 0.1 0.1 0.85 0.85 plot x,y set axes1,ylim 0.01 0.43 xlim 3 3 圖1 2 ...