卡方檢驗
卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。屬於非引數檢驗,主要是比較兩個及兩個以上樣本率(構成比)以及兩個分類變數的關聯性分析。根本思想在於比較理論頻數和實際頻數的吻合程度或者擬合優度問題。
舉例一:想知道喝牛奶對感冒發病率有沒有影響。
喝牛奶組和不喝牛奶組的感冒率為30.94%和25.00%,兩者的差別可能是抽樣誤差導致,,也可能是 牛奶對感冒率真的有 影響。
下面就就行假設了:假設喝牛奶對感冒發病率沒有影響,即喝牛奶與感冒無關
所以感冒的發病率實際是(43+28)/(43+28+96+84)=28.29%
所以可以得到理論的**
如果說真的沒有影響的話 **中理論值和實際值差別應該會很小。
卡方檢驗的計算公式
其中:a是實際值,t為理論值
x^2值的意義:衡量理論與實際的差異程度。
經過計算可以計算得到
x^2=1.077
下面就是我們如何根據卡方值來判斷是否有差異了。
我們需要查詢卡紙分布的臨界值,將計算的值與臨界值比較。
查詢臨界值就需要知道自由度
自由度v=(行數-1)*(列數-1);
對於該問題v=1,查詢可得 臨界值為3.84
如果x^2 《臨界值 則假設成立。。
參考部落格
卡方檢驗隨筆
一 什麼是卡方檢驗 考慮這樣乙個場景 有一枚硬幣,我們希望知道,這枚硬幣是否是均勻的。於是我們拋了100次,檢視正面和反面的次數,根據這個結果來判斷這個硬幣是否為均勻的。1 有50次正面,50次反面,那麼我們覺得基本上這個硬幣是均勻的 2 有55次正面,45次反面,我們也覺得硬幣差不多是均勻的 3 ...
卡方檢驗,U檢驗,t檢驗,F檢驗
卡方檢驗 主要用於等級資料 t檢驗 適用於計量資料 正態分佈 方差具有齊性的兩組間小樣本比較。包括配對資料間 樣本與均數間 兩樣本均數間比較三種,三者的計算公式不能混淆。也可以這樣理解主要是用於小樣本 樣本容量小於30 的兩個平均值差異程度的檢驗方法。u檢驗 檢驗應用條件與t檢驗基本一致,只是當大樣...
機器學習 卡方檢驗
本文相對原文有刪減和增加一些自己的理解。其實卡方檢驗是英文chi square test 的諧音。在大資料運營場景中,通常用在某個變數 或特徵 值是不是和應變數有顯著關係。卡方檢驗就是檢驗兩個變數之間有沒有關係。如果有顯著區別的話,我們會考慮把這些變數放到模型或者分析裡去。這邊顯著區別可以理解為兩個...