L1與L2正則化

2022-06-05 16:06:12 字數 1148 閱讀 7555

目錄機器學習中,如果引數過多、模型過於複雜,容易造成過擬合。

在經驗風險最小化(訓練誤差最小化)的基礎上,盡可能採用簡單的模型,以提高模型泛化**精度。

為了避免過擬合,最常用的一種方法是使用正則化,例如l1和l2正則化。

所謂的正則化,就是在原來損失函式的基礎上,加了一些正則化項,或者叫做模型複雜度懲罰項。

l2正則化即:\(l=e_+\lambda\sum_j\omega^2_j\),其中,\(e_\)是原來的損失函式;\(\lambda\)是正則化引數,可調整;\(\omega_j\)是引數。

由上可知,正則化是為了限制引數過多,避免模型過於複雜。因此,我們可以令高階部分的權重\(\omega\)為0,這樣就相當於從高階轉換為低階。然而,這是個np難問題,將其適度簡化為:\(\sum_j\omega_j^2≤c\),令\(\omega_j\)的平方和小於\(c\)。這時,我們的目標就轉換為:令\(e_\)最小,但是要遵循\(w\)平方和小於\(c\)的條件,如下圖所示:

l1正則化和l2正則化相似:\(l=e_+\lambda\sum_j|\omega_j|\),同樣地,圖形如下:

滿足正則化條件,實際上是求解上面圖中紅色形狀與藍色橢圓的交點,即同時滿足限定條件和\(e_\)最小化。

對於l2來說,限定區域是圓,這樣得到的解\(\omega_1\)或\(\omega_2\)(以二元為例)為0的概率很小,且很大概率是非零的。

對於l1來說,限定區域是正方形,方形與藍色區域相交的交點是頂點的概率很大,這從視覺和常識上來看是很容易理解的。也就是說,正方形的凸點會更接近 \(e_\)最優解對應的\(\omega\)位置,而凸點處必有\(\omega_1\)或\(\omega_2\)為0。這樣,得到的解\(\omega_1\)或\(\omega_2\)為零的概率就很大了。所以,l1正則化的解具有稀疏性。

擴充套件到高維,同樣的道理,l2的限定區域是平滑的,與中心點等距;而 l1 的限定區域是包含凸點的,尖銳的。這些凸點更接近\(e_\)的最優解位置,而在這些凸點上,很多\(\omega_j\)為0。

歡迎討論和交流!

L1與L2正則化

在機器學習中,我們茶廠聽到l1和l2正則化,用他們來防止過擬合,但是在什麼情況下使用它們和它們的原理是什麼樣的可能一知半解。所以在本部落格中將對l1和l2做簡單的介紹和應用場景。如果引數過多,模型過於複雜,容易造成過擬合 overfit 即模型在訓練樣本資料上表現的很好,但在實際測試樣本上表現的較差...

L1與L2正則化

尊重原創,我沒有改動乙個字。過擬合示意圖 我們知道,過擬合就是所謂的模型對可見的資料過度自信,非常完美的擬合上了這些資料,如果具備過擬合的能力,那麼這個方程就可能是乙個比較複雜的非線性方程 正是因為這裡的 x 3 和 x 2 使得這條虛線能夠被彎來彎去,所以整個模型就會特別努力地去學習作用在 x 3...

L1 與 L2 正則化

參考這篇文章 1.l2 正則化直觀解釋 l2 正則化公式非常簡單,直接在原來的損失函式基礎上加上權重引數的平方和 l ein jw2j l ein jwj2 其中,ein 是未包含正則化項的訓練樣本誤差,是正則化引數,可調。但是正則化項是如何推導的?接下來,我將詳細介紹其中的物理意義。我們知道,正則...