關於多重共線性的一點感想

2022-05-15 08:17:56 字數 953 閱讀 6224

多重共線性是指多變數線性回歸中,變數之間由於存在高度相關關係而使回歸估計不準確。比如虛擬變數陷阱(英語:dummy variable trap)即有可能觸發多重共線性問題。

————維基百科

在科學研究問題中,共線性絕對是乙個很讓人頭大的問題,只要不是統計學專業,絕對對這個問題有過很長時間的糾結,糾結的問題則是**是否去除變數**,很多情況下,我們使用方差膨脹因子vif

= 1 / (1-r^2)

來處理共線性問題,並且選擇10作為處理變數的閾值,如果樣本量很大,則選擇3,甚至2作為閾值去除變數。如此一來,導致了一些潛在問題,如果變數本身不多,只有3個,去除掉某個變數後自然會使得另外2個變數的影響發生改變,這種改變是否真實則不敢下定論。

雖然本身不是統計學專業,但是從多年資料分析的經驗來看,變數之間的相關性是存在的,比如在分類學中,對於頭骨標本的測量值,頭骨不同部位的測量值之間絕對存在共線性,這種共線性**於進化發育,不可能有個動物的眼眶長和顱骨長是完全獨立發育的;又或者說生態學中,共線性來自於生態系統變數之間的相互作用,降雨量和溫度,海拔和氣壓的關係等都存在共線性。是否說為了解決共線性的問題,我非得去除變數以滿足模型假設不可?

最近看了一些關於這個問題的討論,略有所獲,引用知乎慧航的解釋:共線性會讓人得到不顯著的結果,換句話說,如果結果顯著,則不必擔心共線性的問題。

現在來說,很多手段都可以躲避這個問題,比如主成分回歸、嶺回歸、機器學習等,如果不在乎變數分析,顯然這些是更好的手段。從本身從事的專業角度來說,我們也並不追求顯著結果,自然科學中沒有理論基礎的顯著性的結果並沒有太大意義,尤其是近年來對p值顯著性的爭論也越來越多。但是我還是非常贊同慧航大神的解釋,共線性通過影響變數之間的關係改變模型整體結果。由此,解決共線性的問題就變成了解決模型的問題,如果模型是為了解釋變數對於因變數的影響,可以通過模型篩選的手段進行排序,共線性則可以忽略,或者作為乙個解釋角度引入;如果模型是為了篩選出重要的變數,共線性則作為一種依據,篩選得出影響最大的變數以及對模型的邊際影響效果。

多重共線性

多重共線性的概念 模型解釋變數之間存在完全線性相關或不完全線性相關關係 產生的原因 1 特徵變數之間的內在聯絡 2 特徵變數在時間上有同方向變動的趨勢 3 某些變數的滯後 檢驗的方法 1 相關性分析 2 方差膨脹因子 方差膨脹因子 variance inflation factor,vif 容忍度的...

r語言多重共線性 統計基礎 多重共線性

僅用於個人學習知識整理和sas r語言 python 整理 該文章首發於csdn 正在遷移優化文章中 1.定義 則稱自變數間存在完全多重共線性 2.影響 3.診斷 另外找到乙個比較詳細的診斷方法的列舉 線性回歸多重共線性的診斷方法和r語言實現 線性回歸多重共線性的診斷方法和r語言實現 資料分析與資料...

多重共線性處理方法

自變數 解釋變數 之間彼此相關的現象,我們稱這種現象為多重共線性。手動移除出共線性的變數 先做下相關分析,如果發現某兩個自變數x 解釋變數 的相關係數值大於0.7,則移除掉乙個自變數 解釋變數 然後再做回歸分析。此方法是最直接的方法,但有的時候我們不希望把某個自變數從模型中剔除,這樣就要考慮使用其他...