L1正則化與L2正則化

2021-10-22 16:35:05 字數 527 閱讀 7342

為什麼l1正則可以產生稀疏模型(很多引數=0), 而l2 正則不會出現很多引數為0的情況?

(1)通過導數值進行分析:在進行梯度下降時,對於l1的正則(權值向量w中各個元素的絕對值之和)求導得到的都是1+1+······(有多項1相加),而l2正則化(權值向量w中各個元素的平方和)求導要對於各個特徵進行偏導。對於l1正則導數沒有減少的可能性,因為都是1。而對l2正則來說的話速度就會比較慢了。

(2)通過正則化的函式影象進行分析:要讓obj(w)最小,反解出w*(最優解的特徵引數),這就把 w 的解限制在函式影象區域內,同時使得經驗風險盡可能小,因此取交點就是最優解,絕對值的函式圖可以看出是乙個菱形,因為l1正則影象區域是有稜角的,所以更容易在稜角取得交點,從而導致出現引數為0的情況。l1絕對值的對應影象是菱形,l2的平方和方程的對應影象是乙個圓形。l2是更好接近代價函式的影象,但是代價函式要夠小才能保持經驗風險降至最低,以達到要求得的代價函式。這裡對應的l1可以產生稀疏模型(很多引數=0)是由於菱角點上只能有某個w引數不為0,影象可以得知其他的為0.

L1與L2正則化

在機器學習中,我們茶廠聽到l1和l2正則化,用他們來防止過擬合,但是在什麼情況下使用它們和它們的原理是什麼樣的可能一知半解。所以在本部落格中將對l1和l2做簡單的介紹和應用場景。如果引數過多,模型過於複雜,容易造成過擬合 overfit 即模型在訓練樣本資料上表現的很好,但在實際測試樣本上表現的較差...

L1與L2正則化

尊重原創,我沒有改動乙個字。過擬合示意圖 我們知道,過擬合就是所謂的模型對可見的資料過度自信,非常完美的擬合上了這些資料,如果具備過擬合的能力,那麼這個方程就可能是乙個比較複雜的非線性方程 正是因為這裡的 x 3 和 x 2 使得這條虛線能夠被彎來彎去,所以整個模型就會特別努力地去學習作用在 x 3...

L1 與 L2 正則化

參考這篇文章 1.l2 正則化直觀解釋 l2 正則化公式非常簡單,直接在原來的損失函式基礎上加上權重引數的平方和 l ein jw2j l ein jwj2 其中,ein 是未包含正則化項的訓練樣本誤差,是正則化引數,可調。但是正則化項是如何推導的?接下來,我將詳細介紹其中的物理意義。我們知道,正則...