機器學習 嶺回歸和LASSO回歸

2021-07-10 06:53:26 字數 884 閱讀 2406

1.用矩陣表示多元線性回歸

y=bx+a

q(b)=(y-bx)t(y-bx)達到最小時的b值。

也即是殘差平方和最小時。b(bi)的值。可以證明b的最小二乘估計=(xtx)-1xty

其中(xtx)-1為廣義逆。

1.出現多重共線性2.當n

嶺回歸(ridge regression)

先對資料做標準化

b(k)=(xtx+ki)xty為b的嶺回歸估計,其中k為嶺引數,i為單位矩陣,ki為擾動。

嶺跡圖幫助我們發現多重共線性,以及取那個k值。在圖中,k很小時,b很大,k稍微增大,b迅速變小,肯定有多重共線性。多重共線性的嶺跡圖一般呈喇叭口狀。選喇叭附近的k值。

嶺跡圖可以篩選變數,有個變數的係數長期很接近於0,可以剔除這些變數。

選擇k或者lambda使得:

(1)各嶺回歸係數的嶺基本穩定

(2)正負直接穿梭時,不合乎實際意義

(3)殘差平方和增大不太多。

用r語言進行嶺回歸:

lm.ridge(y~.,longley)

lasso回歸

(least absolute shrinkage and selectionator operaterator)

最小的絕對收縮通過構造乙個一階懲罰函式獲得乙個精煉的模型,通過最終確定一些指標(變數)的係數為0(嶺回歸估計係數等於0的機會微乎其微),解釋力很強。擅長處理具有多重共線性的資料,與嶺回歸一樣是有偏估計。

彈性網

lar(最小角回歸least angel regression)

類似於逐步向前回歸的形式

r語言中有lars的包

機器學習 嶺回歸和Lasso回歸(4)

任何資料都存在雜訊和多重共線性 如何解決多重共線性 1.演算法角度 正則化 2.資料角度 最有效果 嶺回歸與lasso回歸的出現是為了解決線性回歸出現的過擬合 資料間高度線性相關 以及在通過正規方程方法求解 的過程 現的x轉置乘以x不可逆這兩類問題的,這兩種回歸均通過在損失函式中引入正則化項來達到目...

機器學習 嶺回歸和 LASSO 回歸實現

普通最小二乘法帶來的侷限性,導致許多時候都不能直接使用其進行線性回歸擬合。特別是以下兩種情況 為了解決上述兩種情況 現的問題,嶺回歸 ridge regression 應運而生。嶺回歸可以被看作為一種改良後的最小二乘估計法,它通過向損失函式中新增l2l2 l2正則項 2 範數 有效防止模型出現過擬合...

嶺回歸和lasso回歸

在多元線性回歸模型中估計回歸係數使用的是ols,但同時還也有異方差和多重共線性的影響。回歸中關於自變數的選擇大有門道,變數過多時可能會導致多重共線性問題造成回歸係數的不顯著,甚至造成ols估計的失效。嶺回歸和lasso回歸在ols回歸模型的損失函式上加上了不同的懲罰項,該懲罰項由回歸係數的函式構成,...