SAS學習筆記27 卡方檢驗

2021-10-05 10:51:45 字數 831 閱讀 1115

卡方檢驗(chi-square test)是英國統計學家pearson提出的一種主要用於分析分類變數資料的假設檢驗方法,該方法主要目的是推斷兩個或多個總體率或構成比之間有無差別。

卡方分布界值表的依據是卡方分布,其分布是連續型分布,而計數資料中的實際頻數為分類資料,是不連續的。因此,計算出來的卡方值查界值表所得的概率p偏小,特別是對自由度為1的四格表資料的影響更大。 為此,美國統計學家f.yates(2023年)提出了計算卡方的連續性校正法(correction for continuity)

在實際工作中,對於四格表資料,通常規定為:

四格表資料的fisher確切概率法

該法是一種直接計算概率的假設檢驗方法,其理論依據是超幾何分布(hypergeometric distribution)。四格表的確切概率法不屬於卡方檢驗的範疇,但常作為四格表資料假設檢驗的補充。

多個樣本率間多重比較

當多個樣本率比較的推斷結論拒絕h0、接受h1時,只說明各總體率之間有差別,但不能說明任兩個總體率之間有差別。多個樣本率間的兩兩比較若直接用四格表資料的卡方檢驗進行多重比較,將會增加犯i類錯誤的概率。為此,需要採用多個樣本率的多重比較方法。

多個樣本率間的多重比較有卡方分割法、scheffe可信區間法和bonferroni方法,應用這些方法能夠保證假設檢驗中i類錯誤α的概率不變。

最簡單的是bonferroni方法,其基本思想是根據重複檢驗的次數重新規定檢驗水準α』。這是一種比較保守的方法,比較的組數不宜過多,實際中通常有兩種情況。

一是多個實驗組間的兩兩比較,二是實驗組與同

機器學習 卡方檢驗

本文相對原文有刪減和增加一些自己的理解。其實卡方檢驗是英文chi square test 的諧音。在大資料運營場景中,通常用在某個變數 或特徵 值是不是和應變數有顯著關係。卡方檢驗就是檢驗兩個變數之間有沒有關係。如果有顯著區別的話,我們會考慮把這些變數放到模型或者分析裡去。這邊顯著區別可以理解為兩個...

卡方檢驗(詳解)

卡方檢驗 卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。屬於非引數檢驗,主要是比較兩個及兩個以上樣本率 構成比 以及兩個分類變數的關聯性分析。根本思想在於比較理論頻數和實際頻數的吻合程度或者擬合優度問題。舉例一 想知道喝牛奶對感冒發病率有沒有影響。喝牛奶組和不喝牛奶組的感冒率為30.94 和25....

卡方檢驗隨筆

一 什麼是卡方檢驗 考慮這樣乙個場景 有一枚硬幣,我們希望知道,這枚硬幣是否是均勻的。於是我們拋了100次,檢視正面和反面的次數,根據這個結果來判斷這個硬幣是否為均勻的。1 有50次正面,50次反面,那麼我們覺得基本上這個硬幣是均勻的 2 有55次正面,45次反面,我們也覺得硬幣差不多是均勻的 3 ...