本文是個人學習筆記
卡方檢驗用來檢驗類別變數。
> gender_f <- table(data_*****$gender,
data_*****$group)
> print(gender_f)12
31616
9277
10#行是性別,列是組
> prop.table( gender_f,
2)
注意,這裡2代表 「gender_f」 中的第二個變數,即組別,因為我們需要的是不同性別在每個組中的頻率
有時候需要把連續變數分成分類變數,目前還沒有碰到這類分析,後續如有需要會補上。這裡的gender和group本身就是因子變數:
> s = chisq.test(gender, group)
> print (s)
即可得到卡方值與p值。
首先計算估計期望頻數,是儲存在"s"的「expected」分量中
再調出儲存在table(gender,group)這個列聯表中的觀測頻數
> s$expected
> sum(
(table(gender,group)
-s$expected)^2
/ s$expected)
所得結果與上一節的卡方值相同。
函式「pchisq」可以用來計算乙個卡方隨機變數的累積分布函式,自由度df是(行-1)(列-1)
1
- pchisq(
2.805835
, df=
2)
所得值也與p值相同。
本文參考了 《通過例項學習r》 [美] 吉姆·艾伯特,瑪利亞·裡佐
機器學習 卡方檢驗
本文相對原文有刪減和增加一些自己的理解。其實卡方檢驗是英文chi square test 的諧音。在大資料運營場景中,通常用在某個變數 或特徵 值是不是和應變數有顯著關係。卡方檢驗就是檢驗兩個變數之間有沒有關係。如果有顯著區別的話,我們會考慮把這些變數放到模型或者分析裡去。這邊顯著區別可以理解為兩個...
卡方檢驗(詳解)
卡方檢驗 卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。屬於非引數檢驗,主要是比較兩個及兩個以上樣本率 構成比 以及兩個分類變數的關聯性分析。根本思想在於比較理論頻數和實際頻數的吻合程度或者擬合優度問題。舉例一 想知道喝牛奶對感冒發病率有沒有影響。喝牛奶組和不喝牛奶組的感冒率為30.94 和25....
卡方檢驗隨筆
一 什麼是卡方檢驗 考慮這樣乙個場景 有一枚硬幣,我們希望知道,這枚硬幣是否是均勻的。於是我們拋了100次,檢視正面和反面的次數,根據這個結果來判斷這個硬幣是否為均勻的。1 有50次正面,50次反面,那麼我們覺得基本上這個硬幣是均勻的 2 有55次正面,45次反面,我們也覺得硬幣差不多是均勻的 3 ...