通常情況下,卡方檢驗是研究分類資料與分類資料之間關係的分析方法,如性別和是否戴**眼鏡之間的關係。卡方檢驗通常會涉及卡方值和p值兩個名詞術語。卡方值與p值有對應關係,p值小於0.05則說明有差異存在,即性別與是否戴**眼鏡之間有聯絡。在具體差異分析的基礎上,進一步分析不同性別樣本戴**眼鏡的百分比,例如,男性戴**眼鏡的百分比為30%,而女性戴**眼鏡的百分比為50%,說明女性樣本戴**眼鏡的比例要明顯高於男性樣本。
除此之外,卡方檢驗(準確說是卡方擬合優度檢驗)還可以檢驗定類資料的分布特徵是否與預期保持一致。比如本來預計男性和女性的比例各佔一半(50%),但收集回來的資料卻是45%和55%,那麼收集回來的資料是否就明顯的偏差預期(50%)呢?此時也可以使用卡方檢驗。
卡方檢驗在實際使用過程中,還可用於問卷多選題的分析(也稱作多重響應分析),比如多選題的選擇比例是否均勻,也或者單選題和多選題之間的差異關係情況如何呢,均可使用卡方檢驗進行分析。下**為卡方檢驗的實際使用型別說明:
卡方檢驗實際應用
通常理解的卡方檢驗,其檢驗目的在於定類和定類資料的差異。比如性別和是否戴眼鏡的關係,性別和是否戴眼鏡都是定類資料,因此可以研究性別和是否戴眼鏡的比例是否有明顯的差異性。
除此之外,還有一種卡方檢驗(準確說是卡方擬合優度檢驗),其目的是研究定類資料各選項的分布比例上是否有著差異性,比如性別男和女預期是50%和50%,那事實上的樣本是否明顯的偏離這一比例呢,這種即卡方擬合優度檢驗。
在問卷研究裡面,有很多的多選題,多選題各項的比例是否均勻呢?那麼就可以利用卡方擬合優度檢驗進行分析(spssau預設提供);如果想研究單選題和多選題的選擇差異關係,那麼這種是研究定類資料和定類資料的差異性,spssau預設也提供卡方檢驗結果。
卡方檢驗spssau操作
1) 絕大多數情況下,均是直接研究定類和定類資料差異,spssau共有兩個地方可實現,分別是通用方法裡面的「交叉(卡方)」和醫學研究裡面的卡方檢驗。如果是彙總資料,即加權資料,此時只能使用【醫學研究->卡方檢驗】,同時,如果希望提供更多詳細的資料指標,比如自由度,列聯絡數,cramer v等,均需要使用醫學研究裡面的卡方檢驗。
2) 如果是進行卡方擬合優度檢驗,即研究定類資料選項佔比差異,此時應該使用醫學研究裡面的卡方擬合優度檢驗。操作如下圖所示:
預設spssau會假定選項的選擇比例完全一致,即男和女的比例是50%和50%。如果預期是40%和60%,那麼可對「期望值設定(預設相等)」這個按鈕進行設定,如下圖:
3) 如果是問卷研究裡面的多選題操作,直接使用spssau問卷研究裡面對應多選題的按鈕即可,比如下圖:
特別說明一點:多選題的資料格式非常特殊,乙個選項乙個標題,比如5個選項就有5個標題,而且需要使用數字標識『選中』還是『沒有選中』,一般情況下數字1表示『選中』,數字0表示『沒有選中』。
如果原始資料使用數字表示選中,null值表示沒有選中,那麼需要把null值全部替換成數字0,可使用spssau【資料處理->異常值功能】進行批量處理,把null值即缺失值填補成數字0即可。
使用卡方檢驗時,資料格式非常重要,因為spssau支付加權和非加權兩種格式,而且有時想利用卡方檢驗檢視相關關係情況,此時還需要看一些新的指標,比如列聯絡數、cramer v或lambda指標等。當然還會有一些其它問題,彙總如下圖:
第1點:卡方檢驗資料格式問題?
spssau共支援2種資料格式,分別是常規資料格式(非加權格式)和加權格式,如下說明:
上圖為常規格式(即非加權格式),一行代表乙個樣本,一列代表乙個屬性,將全部的原始資料資訊列出即可,比如有100個樣本,那麼就有100行資料。
在醫學/實驗研究時,很多時候只有彙總資料,即帶加權項的資料,比如下圖中x有2種情況,y有3個情況,一種有2*3=6種組合,資料資訊只有6種組別的彙總項(即加權項),分別是40,10,20,30,20,50;相當於總共有170個樣本,如果是使用常規格式(即非加權格式),此時應該有170行;但加權格式則只需要6行即可表示,如下圖:
在使用spssau【醫學研究->卡方檢驗】,也或者【醫學研究->卡方擬合優度檢驗】時,spssau均支援加權資料格式。一旦資料是加權格式,那麼分析時需要把『加權項』放到對應的框中即可。
第2點:fisher卡方值問題?
在spssau的【醫學研究->卡方檢驗】裡面,如果資料是2*2格式,比如性別為男和女2個選項,學歷分為本科以下和本科以上共2個選項。那麼此時為2*2的組合,此時spssau缺省會提供fisher卡方檢驗值。
當然,spssau還會提供一些其它的卡方指標值,包括pearson卡方,連續校正卡方,各選擇單元格的期望值和比例值等中間過程值等等(當然具體應該使用那乙個,spssau會自動進行判斷和選擇),下圖僅為中間過程值等。
第3點:相關關係問題?
如果希望看出差異的幅度,而不僅僅是看是否有差異。除了使用肉眼進行分析,即對比選擇百分比的具體值情況進行分析外。還可以使用效應量(effect size),effect size值通常包括phi、列聯絡數、校正列聯絡數、cramer v和lambda等。此五個係數的意義都是檢視差異幅度,但使用的前提並不一樣,通常只需要使用其中乙個即可,具體使用的標準和說明如下:
第4點:到底用卡方,還是方差,也或者非引數檢驗?
有時候會出現一種疑問,比如看下面的例子。
當前想研究性別和滿意度的差異關係,滿意度分為「非常不滿意、比較不滿意、一般、滿意和非常滿意」共五項。滿意度看上去更像是定量資料,而非定類資料,但看成是定類資料也可以。
那麼此時到底用卡方呢,還是使用方差(也或者非引數檢驗呢?)。其實這裡的滿意度是一種有序的定類資料,一般這種資料可能看成是定量更多,即使用方差分析更適合(當然也可使用卡方檢驗)。
但比如醫學裡面有這樣的資料「未見療效,好轉和**」,這個也是有序的定類資料,這個僅3項,看成是定類資料就更適合了,所以使用卡方檢驗較好。
擬合優度檢驗
可決係數 coefficient of determination 如果樣本回歸線對樣本觀測值擬合程度越好,各樣本觀測點與回歸線靠得越近,由樣本回歸做出解釋的離差平方和與總離差平方和越相近 反之,擬合程度越差,相差越大。可決係數的計算式 可決係數可以作為綜合度量回歸模型對樣本觀測值擬合優度的度量指標...
資料探勘之擬合優度檢驗
本部落格根據非常好的excel資料而編寫,使用python語言操作,預計使用一周的時間更新完成。需要 非常好的excel資料 word文件,歡迎發郵件給1982500361 qq.com,免費發放。這篇部落格對應 非常好的excel資料 裡的第4章節。資料 python 如下 def lilunpi...
用python求解多元線性回歸方程的權重和殘差
最近學金融的妹妹要處理資料寫 對乙個文科妹子來說,數學學不會,公式看不懂怎麼破 作為姐姐的我看在眼裡,疼在心裡,打算幫妹妹解決掉資料計算這方面的問題。原來就是求三元線性回歸的殘差啊,害,這有什麼難的,妹妹就是不會算權重,一直在網上尋找已經算好權重的資料,為此特意開通了什麼會員,咱也不知道咱也不敢問。...