我們前面講過方差分析,方差分析的應用場景是什麼樣子的呢?不記得同學可以翻回去看看。當我們要比較兩組或者多組均值有沒有顯著性差異的時候,我們可以用方差分析。請注意,這裡面我們提到是兩組或者多組之間的均值比較時,我們用方差分析,想一下什麼型別的資料可以求均值呢?是不是只有數值型別的資料才可以求均值。也就是所謂的連續型變數。那如果我們要比較兩組或者多組之間的分型別變數之間是否有顯著性差異呢?這個時候就不可以使用方差分析了,就需要使用專門用於分類變數比較的卡方檢驗。
接下來我們具體看一下卡方分析是怎麼做的。
現在某個研究機構為了驗證一下吸菸與肺病的關係,通過抽樣調查得到如下資料:
我們先假設是否吸菸與是否患肺病之間是沒有必然聯絡的,也就是不管是否患肺病的群體中吸菸者比例都應該等於合計中吸菸者比例,即33%。我們來看一下,如果各組的吸菸者比例都為33%的時候,各組的人數分布情況是什麼樣的。我們通過上表可以看出肺病患者裡面的吸菸比例為48%,明顯高於非肺病患者中的吸菸比例20%。可是這能直接說明兩者之間有顯著性差異嗎?我們需要來驗證一下到底顯著不顯著呢?那具體該怎麼驗證呢?
通過對比前面的兩個表,我們可以發現各組的人數都不太一樣,造成不太一樣的原因主要有兩個,乙個就是抽樣誤差導致的,另乙個就是我們的假設是錯誤的,也就是各組之間的資料本來就是有差異的。那我們怎麼來判斷到底是哪種錯誤呢?這個時候就需要引入卡方檢驗了。
ai為實際頻數(出現的次數),ti為理論頻數。
我們把第乙個表中各組的值稱為實際頻數,把第二個表中各組的值稱為理論頻數。卡方檢驗的值用來反映理論頻數和實際頻數的差異大小。理論頻數和實際頻數差別越大(分子越大),卡方檢驗值越大;反之,卡方檢驗值越小。
如果只是由於抽樣誤差造成的實際頻數和理論頻數的差異,那卡方檢驗的值應該很小,因為我們相信我們的抽樣還是比較合理的,所以誤差不會特別大;如果卡方檢驗值太大,就不太能夠用誤差來解釋,只能說明原假設不成立,即各組之間的資料本來就有差異。
我們在上面的描述中用到了兩個詞,卡方值很小或太大,什麼樣的卡方值算很小,什麼樣的卡方值算太大呢?這個時候就需要引入我們的卡方分布了,如下圖所示,就和z檢驗中的正態分佈一樣。
上圖中的n為自由度,不同自由度對應的卡方分布是不一樣的。而自由度又與特徵維度有關,自由度 = (行數-1)*(列數-1),我們上面的例子是兩行兩列的資料,所以最後自由度為1。
我們知道了自由度以後,就可以通過卡方分布的臨界值表去找到這個自由度對應的不同邊界值以及p值。
通過下圖可以看出,當自由度為1時,臨界值3.84對應的p值為0.05,也就是當卡方值的大於3.84時,右側面積小於0.05,可以認為是小概率事件,不可能發生。
卡方分布的臨界值表:
我們計算前面提到的兩個表的卡方值:
計算出來的卡方值60.53遠遠大於3.84,所以可以認為我們的原假設是不成立的,即是否患肺病與是否吸菸是有關係的。
以上就是關於卡方檢驗的乙個整體過程。
統計學 卡方檢驗和卡方分布
感冒人數 未感冒人數 合計感冒率 喝牛奶組 4396 13930.94 不喝牛奶組 2884 11225.00 合計71 180251 28.29 感冒人數 未感冒人數 合計喝牛奶組 139 0.2829 139 1 0.2829 139不喝牛奶組 112 0.2829 112 1 0.2829 1...
統計學(六) 置換檢驗
置換檢驗,也稱隨機化檢驗或重隨機化檢驗,以乙個例項去理解置換檢驗。有兩種處理條件的實驗,十個受試者已經被 隨機分配到其中一種條件 a或b 中,相應的結果變數 score 被記錄在以下 a處理b處理 4057 5764 4555 5562 5865 步驟 score c 40,57 45,55 58,...
統計學的假設檢驗
假設檢驗是一種規則,它根據資料樣本所提供的證據,指定是肯定還是否定有關總體的宣告。基本原理是先對總體的特徵作出某種假設,然後通過抽樣研究的統計推理,對此假設應該被拒絕還是接受作出推斷。假設檢驗的基本思想是小概率反證法思想。小概率思想是指小概率事件 p 0.01或p 0.05 在一次試驗中基本上不會發...