自變數(解釋變數)之間彼此相關的現象,我們稱這種現象為多重共線性。
手動移除出共線性的變數
先做下相關分析,如果發現某兩個自變數x(解釋變數)的相關係數值大於0.7,則移除掉乙個自變數(解釋變數),然後再做回歸分析。此方法是最直接的方法,但有的時候我們不希望把某個自變數從模型中剔除,這樣就要考慮使用其他方法。
逐步回歸法
讓系統自動進行自變數的選擇剔除,使用逐步回歸將共線性的自變數自動剔除出去。此種解決辦法有個問題是,可能演算法會剔除掉本不想剔除的自變數,如果有此類情況產生,此時最好是使用嶺回歸進行分析。
增加樣本容量
增加樣本容量是解釋共線性問題的一種辦法,但在實際操作中可能並不太適合,原因是樣本量的收集需要成本時間等。
嶺回歸
上述第1和第2種解決辦法在實際研究中使用較多,但問題在於,如果實際研究中並不想剔除掉某些自變數,某些自變數很重要,不能剔除。此時可能只有嶺回歸最為適合了。嶺回歸是當前解決共線性問題最有效的解釋辦法。
參考:多重共線性問題,如何解決?;
多重共線性
多重共線性的概念 模型解釋變數之間存在完全線性相關或不完全線性相關關係 產生的原因 1 特徵變數之間的內在聯絡 2 特徵變數在時間上有同方向變動的趨勢 3 某些變數的滯後 檢驗的方法 1 相關性分析 2 方差膨脹因子 方差膨脹因子 variance inflation factor,vif 容忍度的...
r語言多重共線性 統計基礎 多重共線性
僅用於個人學習知識整理和sas r語言 python 整理 該文章首發於csdn 正在遷移優化文章中 1.定義 則稱自變數間存在完全多重共線性 2.影響 3.診斷 另外找到乙個比較詳細的診斷方法的列舉 線性回歸多重共線性的診斷方法和r語言實現 線性回歸多重共線性的診斷方法和r語言實現 資料分析與資料...
Python 多重共線性檢驗
共線性問題指的是輸入的自變數之間存在較高的線性相關度。共線性問題會導致回歸模型的穩定性和準確性大大降低,另外,過多無關的維度計算也很浪費時間。樣本量太少,導致部分資料以外的呈現線性關係 由於某些原因,導致多個變數的變化趨勢一致 vif是容忍度的倒數,值越大則共線性問題越明顯,通常以10作為判斷邊界。...