如何理解ANOVA中的F值與P值

2021-08-26 20:28:36 字數 1274 閱讀 4105

anova(analysis of variance),方差分析,曾經以為它是乙個多麼複雜的簡寫。。。

一、理解f分布

要理解f分布,就要先理解卡方分布,要理解卡方分布,就要先理解正態分佈。

1.正態分佈的概率密度函式的表示式:

畫出它的影象:

集中分布在隨機變數的均值附近,對稱

2.卡方分布

如果有n個服從正態分佈的隨機變數x,我們從這n個隨機變數創造出乙個新的隨機變數,讓它們平方然後相加(至於為什麼要這麼創造,這得去看卡方分布的創造過程):

假如我們就給這個新的隨機變數取名叫「卡方」,那麼卡方的概率密度函式為:

公式打著太費時間了,轉戰這篇博文:

補充一下,gamma函式的表示式為:

可以證明,這個gamma函式的值一定存在,而且大於0

為什麼這個複雜?人家就是傲嬌地服從這個規律並且被找出來了。

這裡的k(或者n)叫做自由度,它決定了卡方分布的概率密度曲線長什麼樣,就像均值方差決定正態分佈長什麼樣一樣。

3.f分布

我們再從兩個服從卡方分布的隨機變數創造乙個新的隨機變數,我們取名叫f:

那麼f的概率密度函式表示式和圖象為:

對,乙個更複雜的表示式。圖象的長相由兩個引數,自由度1和自由度2決定。

2. 理解anova中的f值和p值

anova我這裡是用來做特徵選擇。

我假設,同一特徵不同組間的均值是一樣的。那我有多大的概率接受這個假設?

現在我要做的就是根據我的資料計算出f值(其實按照我的理解,這裡的f就是乙個隨機變數,只是這個隨機變數不是可以像投硬幣一樣把這個事件本身當做乙個隨機變數這麼簡單,而是要根據組間的資料計算一下,計算的過程參考

從計算的過程可以推出,其實我們預設了 組間方差或組內方差服從卡方分布。

這裡的f值是乙個比值,組間平均方差和組內平均方差的比值,當組間方差和組內方差一樣(我們認為這兩個組別差別很小),那麼f值為1,組間方差遠大於組內方差時這個f值也就會比較大。

下面這幅圖是f分布的影象

可以看出,每乙個f值都會對應乙個p值,f值越大,p值越小,我就越不可能接受我的假設,也就認為組間的特徵差別大。

所以,p值越小,這個特徵就越該被保留下來。

建議看:

關於R中p值的理解

進行線性回歸lm後 執行summary函式之後,會有 coefficients estimate std.error t value pr t 這樣的值出現,其中p值我是這樣理解的 p值是用來判定假設檢驗結果的乙個引數,也可以根據不同的分布使用分布的拒絕域進行比較。p值 p value 就是當原假設...

P值與significant(顯著性)的理解

p值與significant的理解 p值可以理解為結論的風險大小,也就是根據資料得出的結果有多大的錯誤風險,p值越小,結論錯誤的風險越小,即結論越可靠。p值越大,錯誤的風險越大,即結論的可靠性差。實際上significant的含義應該是 非偶然的 當根據樣本資料所得結果是significant,實際...

P值與significant(顯著性)的理解

p值與significant的理解 p值可以理解為結論的風險大小,也就是根據資料得出的結果有多大的錯誤風險,p值越小,結論錯誤的風險越小,即結論越可靠。p值越大,錯誤的風險越大,即結論的可靠性差。實際上significant的含義應該是 非偶然的 當根據樣本資料所得結果是significant,實際...