多重共線性的概念:模型解釋變數之間存在完全線性相關或不完全線性相關關係
產生的原因:
(1)特徵變數之間的內在聯絡
(2)特徵變數在時間上有同方向變動的趨勢
(3)某些變數的滯後
檢驗的方法:
(1)相關性分析
(2) 方差膨脹因子
方差膨脹因子(variance inflation factor,vif):容忍度的倒數,vif越大,顯示共線性越嚴重。經驗判斷方法表明:當0<vif<10,不存在多重共線性;當10≤vif<100,存在較強的多重共線性;當vif≥100,存在嚴重多重共線性
(3)條件係數檢驗
帶來的影響:
(1)ols估計量的方差增大
(2)難以區分每個解釋變數的單獨影響
解釋變數之間的相關性,無法『保證其它變數不變』
(3)變數的顯著性檢驗失去意義
在多重共線性的影響下,係數估計標準差的增大將導致t統計量值的減小,是原來顯著的t值變成不顯著的,容易將重要的解釋變數誤認為是不顯著的變數。
(4)回歸模型缺乏穩定性
不同樣本對模型的影響較大,若出現不合理的係數,首先考慮是否存在多重共線性
處理方法:
(1)刪除不重要的自變數
偏相關係數檢驗證實為共線性原因的那些變數中刪除.。
(2)追加樣本資訊
多重共線性問題的實質是樣本資訊的不充分而導致模型引數的不能精確估計,因此追加樣本資訊是解決該問題的一條有效途徑。
(3)利用非樣本先驗資訊
(4)改變解釋變數的心酸
改變解釋變數的形式是解決多重共線性的一種簡易方法,例如對於橫截面資料採用相對數變數,對於時間序列資料採用增量型變數。
(5)逐步回歸法(有效,常用)
逐步回歸(stepwise regression)是一種常用的消除多重共線性、選取「最優」回歸方程的方法。其做法是將逐個引入自變數,引入的條件是該自變數經f檢驗是顯著的,每引入乙個自變數後,對已選入的變數進行逐個檢驗,如果原來引入的變數由於後面變數的引入而變得不再顯著,那麼就將其剔除。引入乙個變數或從回歸方程中剔除乙個變數,為逐步回歸的一步,每一步都要進行f 檢驗,以確保每次引入新變數之前回歸方程中只包含顯著的變數。這個過程反覆進行,直到既沒有不顯著的自變數選入回歸方程,也沒有顯著自變數從回歸方程中剔除為止。
第一:建立全部變數的回歸方程
第二:分別建立單獨的回歸方程,依照t檢驗和擬合度依次加入各變數來構建回歸方程
第三:判斷新引入的變數,對於之前的係數影響是否顯著,是否符合實際以及對於擬合度的變數,來選擇是否將變數引入模型中。
(6)主成分回歸
主成分分析法作為多元統計分析的一種常用方法在處理多變數問題時具有其一定的優越性,其降維的優勢是明顯的,主成分回歸方法對於一般的多重共線性問題還是適用的,尤其是對共線性較強的變數之間。當採取主成分提取了新的變數後,往往這些變數間的組內差異小而組間差異大,起到了消除共線性的問題。
r語言多重共線性 統計基礎 多重共線性
僅用於個人學習知識整理和sas r語言 python 整理 該文章首發於csdn 正在遷移優化文章中 1.定義 則稱自變數間存在完全多重共線性 2.影響 3.診斷 另外找到乙個比較詳細的診斷方法的列舉 線性回歸多重共線性的診斷方法和r語言實現 線性回歸多重共線性的診斷方法和r語言實現 資料分析與資料...
多重共線性處理方法
自變數 解釋變數 之間彼此相關的現象,我們稱這種現象為多重共線性。手動移除出共線性的變數 先做下相關分析,如果發現某兩個自變數x 解釋變數 的相關係數值大於0.7,則移除掉乙個自變數 解釋變數 然後再做回歸分析。此方法是最直接的方法,但有的時候我們不希望把某個自變數從模型中剔除,這樣就要考慮使用其他...
Python 多重共線性檢驗
共線性問題指的是輸入的自變數之間存在較高的線性相關度。共線性問題會導致回歸模型的穩定性和準確性大大降低,另外,過多無關的維度計算也很浪費時間。樣本量太少,導致部分資料以外的呈現線性關係 由於某些原因,導致多個變數的變化趨勢一致 vif是容忍度的倒數,值越大則共線性問題越明顯,通常以10作為判斷邊界。...