卡方檢驗隨筆

2022-10-11 09:06:10 字數 2086 閱讀 7537

一 什麼是卡方檢驗

考慮這樣乙個場景:有一枚硬幣,我們希望知道,這枚硬幣是否是均勻的。於是我們拋了100次,檢視正面和反面的次數,根據這個結果來判斷這個硬幣是否為均勻的。

1)有50次正面,50次反面,那麼我們覺得基本上這個硬幣是均勻的;

2)有55次正面,45次反面,我們也覺得硬幣差不多是均勻的;

3)有80次正面,20次反面,那麼我們覺得這個硬幣似乎沒有那麼均勻;

4)有99次正面,1次反面,那麼我們就覺得這個硬幣基本不均勻了。

這就是我們面對投擲結果的主觀判斷。但是這樣的結果都是基於經驗產生的,是否有一種可以量化的數學方法呢?這就引出了卡方檢驗。卡方檢驗就是將上述四句話中標出的經驗性判斷,量化成具體的數值,讓我們的結果有理可循。

-- by brisk yu 2022-05-19

二 怎麼計算卡方值

卡方檢驗的目的就在於計算乙個稱為「卡方」的值:x2

。通過介個值,我們就可以判斷出「硬幣是否為均勻的」。那麼下面首先看一下,這個值的計算公式:

其中a為觀測值,t為期望值。在拋擲硬幣的例子中,比如有80次正面,20次反面,但是我們期望正反面均為50次,那麼此時的x2

為:(80-50)2/50 + (20-50)2/50 = 36。具體來說,對於每種情況的值如下:

1)(50-50)2/50 + (50-50)2/50 = 0

2)(55-50)2/50 + (45-50)2/50 = 1.0

3)(80-50)2/50 + (20-50)2/50 = 36.0

4)(99-50)2/50 + (1-50)2/50 = 96.04

顯然,從直觀上我們已經可以看出來,x2

值越小,硬幣越可能是均勻的。因為這裡我們的期望是正反50次,即硬幣是均勻的,因此我們就說:值越小,越符合期望;值越大,越不符合期望。

三 怎麼根據卡方值確定結果

還是拋擲硬幣的例子,上面的結論只是乙個趨勢,那麼我們究竟如何根據卡方值來確定硬幣是否為均勻的呢?

歷史上牛逼的科學家發現x2

值這玩意服從乙個稱為卡方分布的東西,那麼我們就可以根據卡方分布計算出某個卡方值出現的概率。並且我們提前設定乙個閾值,來判斷結果是否符合期望(即,硬幣是均勻的)。

卡方分布的影象如下:

水平座標即為卡方值。可以看出,如果希望計算出這個卡方值出現的概率,則還需要n這個值。n在這裡稱為自由度,即可以自由確定的變數個數。考慮在拋擲硬幣的實驗中,假設我們拋擲100次,正面的次數自由確定後,反面的次數顯然為 (100-正面次數) ,因此自由度為1。

有了自由度,有了卡方值,我們就可以獲取該卡方值出現的概率。這裡我們一般使用查表法,下圖為自由度為1的卡方分布表:

針對一開始的四種情形,結合卡方分布表,我們大致可以得出每種情況出現的概率:

1)卡方值=0<0.02,p>0.9,這種情況出現的概率大於0.9;

2)卡方值=1.0 在0.45和1.32之間,p在0.5和0.25之間,這種情況出現的概率大於0.25小於0.5;

3)卡方值=36.0>7.88,p小於0.005,這種情況出現的概率小於0.005;

4)卡方值=96.04,同上。

因此,我們可以看出,如果我們設定乙個閾值,比如0.05,我們就會說:假設硬幣是均勻的,置信度為0.05,如果出現1)2),則在p在置信區間內,接受原假設;如果出現3)4),則p在置信區間外,拒絕原假設。

四 總結

這裡只是舉了投擲硬幣的例子。其實卡方檢驗具有廣泛的應用場景,比如機器學習特徵選擇中的相關性檢驗。當我們計算兩個特徵是否具有相關性時候,可以先假設兩個特徵具有相關性,然後再使用卡方檢驗判斷是否接受假設。

卡方檢驗(詳解)

卡方檢驗 卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。屬於非引數檢驗,主要是比較兩個及兩個以上樣本率 構成比 以及兩個分類變數的關聯性分析。根本思想在於比較理論頻數和實際頻數的吻合程度或者擬合優度問題。舉例一 想知道喝牛奶對感冒發病率有沒有影響。喝牛奶組和不喝牛奶組的感冒率為30.94 和25....

卡方檢驗,U檢驗,t檢驗,F檢驗

卡方檢驗 主要用於等級資料 t檢驗 適用於計量資料 正態分佈 方差具有齊性的兩組間小樣本比較。包括配對資料間 樣本與均數間 兩樣本均數間比較三種,三者的計算公式不能混淆。也可以這樣理解主要是用於小樣本 樣本容量小於30 的兩個平均值差異程度的檢驗方法。u檢驗 檢驗應用條件與t檢驗基本一致,只是當大樣...

機器學習 卡方檢驗

本文相對原文有刪減和增加一些自己的理解。其實卡方檢驗是英文chi square test 的諧音。在大資料運營場景中,通常用在某個變數 或特徵 值是不是和應變數有顯著關係。卡方檢驗就是檢驗兩個變數之間有沒有關係。如果有顯著區別的話,我們會考慮把這些變數放到模型或者分析裡去。這邊顯著區別可以理解為兩個...