在前面我們講過簡單的單因素方差分析,這一篇我們講講雙因素方差分析以及多因素方差分析,雙因素方差分析是最簡單的多因素方差分析。
單因素分析就是只考慮乙個因素會對要比較的均值產生影響,而多因素分析是有多個因素會對均值產生影響。
需要注意的是乙個因素可能會有不同的水平值,即不同的取值。比如要判斷某一款藥對某種病症有沒有效果,服用不同的劑量效果應該是不一樣的,雖然因素都是服藥這乙個因素,但是不同的藥劑量代表不同的水平。
雙因素(多因素)方差分析又可以分為兩種,一種是有互動作用的,一種是沒有互動作用的。啥意思呢?什麼是互動作用呢?
比如我們大家所熟知的,牛奶和藥是不可以一起吃的,如果單獨喝牛奶有助於身體蛋白質的補充,如果單獨吃藥可以有助於**病症,但是牛奶和藥同時吃就會把兩者的作用抵消掉。這種兩者之間的相互作用就可以理解成是互動作用,當然了,有的時候互動是正向呢,有的時候是負向的。
我們先來看看無互動作用的雙因素方差分析具體怎麼做呢,所謂的無互動也就是假設品牌和地區之間是沒有互動作用的,相互不影響,只是彼此單獨對銷量產生影響。
前面單因素方差分析中,我們是用f值去檢驗顯著性的,多因素方差分析也同樣是用f值.
f = 組間方差/組內方差。
對於沒有互動作用的多因素,可以單純理解為多個單因素。也就是你可以單獨去看品牌對銷量的影響,然後再單獨去看地區對銷量的影響。
那單獨怎麼看呢?這就回到了我們前面講過的單因素方差分析。
我們先來計算品牌的組內平方和:
ssa = (每個品牌的均值 - 全部銷量均值)^2*每個品牌內樣本數
= (344.20-328.45)^2*5 + (347.80-328.45)^2*5 + (337.00-328.45)^2*5 + (284.80-328.45)^2*5
= 13004.55
我們再來計算地區的組內平方和:
ssb = (每個地區的均值 - 全體銷量均值)^2*每個地區內樣本數
= (339.00-328.45)^2*4 + (330.25-328.45)^2*4 + (339.25-328.45)^2*4 + (318.25-328.45)^2*4
= 2011.7
接著我們來計算全部平方和:
sst = (每個值-總體均值)^2
= 17888.95
除此之外還有乙個平方和:
sse = sst - ssa - ssb
這部分是除品牌和地區以外的其他因素所產生的,稱為隨機誤差平方和。
有了平方和以後,我們同樣需要求取均方,而均方 = 平方和/自由度。
sst的自由度 = 總水平數 - 1 = 19
ssa的自由度 = 品牌的水平數 - 1 = 3
ssb的自由度 = 地區的水平數 - 1 = 4
sse的自由度 = ssa的自由度*ssb的自由度 = 12
平方和有了,自由度也有了,均方ms也就可以求出來了,接下來進入到最重要的f值求取,
品牌因素的f值 = ssa/sse
地區因素的f值 = ssb/sse
最後可以通過查f值表獲得在置信度為95%的情況下時的f邊界值表,然後和實際的f值作比較,最後做出是否顯著的判斷。如下表:
某交通部門想要知道高峰期與路段是否會對汽車的行車時間有影響,通過人工採集得到了如下資料:
本次分析需要考慮峰期與路段之間的互動作用,某些路段的峰期行車時間可能異常偏高或偏低等。
和無互動作用的多因素方差分析流程類似,我們先計算峰期的平方和:
ssa = (每個峰期內的均值-總體均值)^2*每個峰期內樣本數
= (23.2-20.25)^2*10 + (17.3-20.25)^2*10
= 174.05
再來計算路段的平方和:
ssb = (每個路段內的均值-總體均值)^2*每個路段內樣本數
= (22.4-20.25)^2*10 + (18.1-20.25)^2*10
= 92.45
再來計算互動作用的平方和:
ssab = (每個路段&峰期內的均值-該路段內的均值-該峰期內的均值+總體均值)^2*每個區間內的樣本數
= (25.4-23.2-22.4+20.25)^2*5 + (21-23.2-18.1+20.25)^2*5 + (19.4-17.3-22.4+20.25)^2*5 + (15.2-17.3-18.1+20.25)^2*5
= 0.05
接著計算全部平方和:
sst = (每個值-總體均值)^2
= 329.75
最後來計算誤差平方和:
sse = sst - ssa - ssb - ssab
sst的自由度 = 總樣本數 - 1 = 19
ssa的自由度 = 峰期數 - 1 = 1
ssb的自由度 = 路段數 - 1 = 1
ssab的自由度 = ssa的自由度*ssb的自由度 = 1
sse的自由度 = sst的自由度 - ssa的自由度 - ssb的自由度 - ssab的自由度
經過求均方,查f表,就可得到如下表:
上面通過以有無互動作用的雙因素方差分析為例,給大家把多因素方差分析中涉及到的計算過程都演示了一遍,實際工作中我們是不需要自己手動進行計算的,直接通過excel、python都可以計算得到。以後專門講解工具如何實現。
通過上面的多因素方差分析,我們就可以得出來不同因素對某一目標值(銷量/行車時間等)的影響情況,你可能會有這樣的疑問,那這和多元回歸有什麼區別呢?多元回歸不也是求取多個x和乙個y的關係麼?那這兩個是一樣的嗎?
還是有些不太一樣的,方差分析只是告訴你某個因素的影響顯著不顯著,而沒有告你影響有多大,回歸分析是告訴你具體影響有多大。方差分析是一種定性分析,解決有沒有的問題;回歸分析是一種定量分析,解決有多少的問題。
你還可以看:
聊聊置信度與置信區間統計學的假設檢驗一元線性回歸分析方差分析卡方檢驗講解
雙因素方差分析 兩因素方差分析怎麼理解?
看完單因素方差分析,一般的統計學教課書中並不會直接講two way 雙因素 方差分析,而是講 隨機區組設計的方差分析 那這兩者有什麼關係嗎?從統計方法的角度來看,隨機區組設計的方差分析其實就屬於兩因素 或多因素 方差分析,一種說法認為,為什麼不直接叫兩因素,是因為不把 區組因素 算作一類真正的 因素...
Python 多因素方差分析
在實際應用中,乙個實驗的指標往往受到多個因素的影響。例如飲料的銷量有可能受到銷售地區或者飲料顏色的影響。在方差分析中,若把飲料的顏色看做影響銷量的因素a,把銷售地區看做影響因素b。同時對因素a和因素b進行分析,就稱為雙因素方差分析。a b c a1 b1 20 a1 b2 22 a1 b3 24 a...
單因素方差分析 one way ANOVA
單因素方差分析 一 單因素方差分析概念 是用來研究乙個控制變數的不同水平是否對觀測變數產生了顯著影響。這裡,由於僅研究單個因素對觀測變數的影響,因此稱為單因素方差分析。例如,分析不同施肥量是否給農作物產量帶來顯著影響,考察地區差異是否影響婦女的生育率,研究學歷對工資收入的影響等。這些問題都可以通過單...