嶺回歸和lasso回歸

2021-10-16 12:25:42 字數 679 閱讀 2310

在多元線性回歸模型中估計回歸係數使用的是ols,但同時還也有異方差和多重共線性的影響。回歸中關於自變數的選擇大有門道,變數過多時可能會導致多重共線性問題造成回歸係數的不顯著,甚至造成ols估計的失效。

嶺回歸和lasso回歸在ols回歸模型的損失函式上加上了不同的懲罰項,該懲罰項由回歸係數的函式構成,一方面,加入的懲罰項能夠識別出模型中不重要的變數,對模型起到簡化作用,可以看作逐步回歸法的公升級版;另一方面,加入的懲罰項能夠讓模型變得可估計,即使之前的資料不滿足列滿秩。

我們首先使用最一般的ols對資料進行回歸,然後計算方差膨脹因vif,如果vif>10則說明存在多重共線性的問題,此時我們需要對變數進行篩選。可以使用逐步回歸法來篩選自變數,讓回歸中僅留下顯著的自變數來抵消多重共線性的影響,在此處,可以把lasso回歸視為逐步回歸法的高階版,我們可以使用lasso回歸來幫我們篩選出不重要的變數,步驟如下:

(1)判斷自變數的量綱是否一樣,如果不一樣則首先進行標準化的預處理;

(2)對變數使用lasso回歸,記錄下lasso回歸結果表中回歸係數不為0的變數,這些變數就是最終我們要留下來的重要變數,其餘未出現在表中的變數可視為引起多重共線性的不重要變數。

在得到了重要變數後,我們實際上就完成了變數篩選,此時我們只將這些重要變數視為自變數,然後進行回歸,並分析回歸結果即可。(注意:此時的變數可以是標準化前的,也可以是標準化後的,因為lasso只起到變數篩選的目的)

嶺回歸 lasso回歸

嶺回歸 ridge regression 和lasso least absolute shrinkage and selection operator 都是ols的改進,知乎上有關於三者異同的詳細討論 關於lasso 這裡記錄一下最近的學習心得。嶺回歸的含義 嶺回歸的權值計算公式中有單位方陣i,就像...

嶺回歸和LASSO

0 對於正則罰項的理解 1 嶺回歸 l2 ridge regression 是一種專用於共線性資料分析的有偏估計回歸方法,實質上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分資訊 降低精度為代價獲得回歸係數更為符合實際 更可靠的回歸方法,對病態資料的擬合要強於最小二乘法。關於最小...

R 嶺回歸 lasso回歸

1.嶺回歸 嶺回歸 ridge regression,tikhonov regularization 實際上算是最小二乘法 ols 的改良版。最小二乘法中使用的是無偏估計回歸,而嶺回歸使用的是 有偏估計回歸 通過損失部分資訊 減低精度得到的回歸係數,但是這樣跟符合實際情況。因為ols有四個基本假設 ...