logistic回歸分析中,到底樣本量多大才算夠,這一直是個令許多人困惑的問題。儘管有的人從理論角度提出了logistic回歸分析中的樣本含量估計,但從使用角度來看多數並不現實。直到現在,這一問題尚無廣為接受的答案。根據國外一些大牛的看法,如果樣本量小於100,logistic回歸的最大似然估計可能有一定的風險,如果大於500則顯得比較充足。當然,樣本大小還依賴於變數個數、資料結構等條件。
混雜因素一般可以通過三個方面確定:一是該因素(吸菸)對結局(心絞痛)有影響;二是該因素(吸菸)在分析因素(基因)中的分布不均衡;三是從專業角度來判斷,即該因素不能是分析因素與結局中間的乙個環節。也就是說,不能是分析因素引起該因素,通過該因素再引起結局。
互動作用有的書中也叫效應修飾,是指在該因素的不同水平(不同取值),分析因素與結局的的關聯大小有所不同。在某一水平上(如取值為0)可能分析因素對結局的效應大,而在另乙個水平上(如取值為1)可能效應小。
理論上,logistic回歸中的自變數可以是任何形式,定量資料和定性資料均可。但我覺得在資料分析時更傾向於自變數以分類的形式進入模型,因為這樣更方便解釋。
例如體重,如果直接進行分析,結果提示的是每增加1kg發生某病的危險。而現實中多數疾病可能對體重增加1kg不敏感,或者我們醫務人員不關心增加1kg所發生的變化,而關注的是胖子是不是比瘦子有更高的發病風險。so,很多情況下將連續自變數轉化為分類變數可能會有更合理的結果解釋。
我有過這樣的經歷,logistic回歸分析結果中某個自變數的or值特別大(如》999.999)或特別小(<0.001),可信區間也特別寬(如<0.001~>999.999)。明顯覺得有問題,但始終摸不著頭腦,後來,發現可能是資料出了問題。
對於此類問題,可能有以下原因:關於logistic回歸分析,某些「大牛」如是說:「把因變數和自變數往軟體裡一放,一執行就出來結果了」,那麼簡單,我只能呵呵了!
(1)多分類變數不看其與logitp的關係直接進入模型
有時候你會發現某些多分類自變數應該有意義但怎麼也得不到有統計學意義的結果,那你最好看一下這些自變數與logitp是神馬關係,是直線關係嗎?如果不是,請設定虛擬變數(spss叫做啞變數)後再進入模型。
(2)變數賦值相反
有時候,你會發現你的結果恰好與別人的相反。於是乎你不得不陷入深深的苦惱中,當揪頭髮、拍腦袋都無濟於事是,看看是不是因變數賦值問題。如患病(賦值1)和不患病(賦值0)弄成了患病(賦值0)和不患病(賦值1)。
注意:spss擬合模型時預設取值水平高的為陽性結果,而sas與其相反。(3)引數估計無統計學意義
有時候會發現所有自變數引數估計均無統計學意義,是不是很讓你沮喪?(不管你沮不沮喪,反正我都看在眼裡)如果你認為從專業角度不大可能所有自變數都無統計學意義,那你可以看下是不是標準誤太大導致的wald卡方檢驗失效,如果是,不妨換用似然比檢驗重新分析。如果不是,那你默哀,如果你知道原因請告訴我!
(4)只看引數檢驗結果
看到引數結果就認為分析結束了,這就是典型的只管工作完成,不理會工作質量。很少有人喜歡看擬合優度的結果,儘管擬合優度確實有用,尤其是在模型比較時。擬合優度通俗來講就是看你求得的模型與實際資料的符合程度。logistic回歸中有很多指標可用於擬合優度的評價,如pearson卡方、deviance、aic、似然比統計量等。只要你不是非得追究它們的來歷,這些指標的用法還是比較簡單的,通常用於模型的比較。
Logistic回歸分析
1 import pandas as pd import numpy as np import xlwt import xlrd filename e data chapter5 demo data bankloan.xls 檔案路徑 outputfile r e data chapter4 dem...
logistic回歸 logistic回歸
logistic回歸 logistic回歸分析可用於估計某個事件發生的可能性,這是乙個分類模型而不是乙個回歸模型!它的基本思想是利用一條直線將平面上的點分為兩個部分,即兩個類別,要解決的問題就是如何擬合出這條直線,這個擬合的過程就稱之為 回歸 logistic模型 假設你有乙個需要 的內容,要通過三...
logistic分類(logistic回歸 LR)
幾乎所有的教材都是從logistic分類開始的,因為logistic分類實在太經典,而且是神經網路的基本組成部分,每個神經元 cell 都可以看做是進行了一次logistic分類。所謂logistic分類,顧名思義,邏輯分類,是一種二分類法,能將資料分成0和1兩類。logistic分類的流程比較簡單...