L1 L2正則的效果

2021-10-05 13:16:17 字數 901 閱讀 9252

本文主要講l1、l2正則,首先從直觀上展示l1、l2正則,接著展示其梯度的效果。

擬合過程中通常都傾向於讓權值盡可能小,即構造乙個所有引數都比較小的模型。一般認為引數值小的模型比較簡單,能在一定程度上避免過擬合現象,抗擾動能力強,因為若引數很大,只要資料偏移一點點,就會對結果造成很大的影響;而如果引數比較小,資料偏移一點不會對結果造成什麼很大的影響。

直觀上通過經驗損失項與正則項的等高線來展示l1、l2正則的差異,如下圖

彩色線表示經驗損失項的等高線,黑線表示正則項的等高線,等高線的值越小,圈的範圍越小;等高線的法線方向是梯度方向,經驗損失項與正則項的等高線的交點是引數的取值,(按照梯度下降法移動引數)最優點發生在兩個等高線最後一次相交的位置(即總的梯度為0的位置,此時損失項和正則項的梯度相反但大小相等,雙方拉鋸形成平衡),可以看出l1正則的等高線更容易與經驗損失項的等高線相交在軸上,也即更容易得到稀疏的解,而l2正則更容易得到小數值的解,即最大的引數值更小(假設正則等高線都是1,那麼l2正則下交點的w2比l1正則下交點的w2小;更確切的說,由於l2正則是平方,而l1正則是1次方,l2正則對大數值的懲罰更大)

從l1、l2正則的梯度可以看出,根據梯度下降法,

l1正則下的引數更新

l2正則下的引數更新

所以一般來說,l1正則的解更容易稀疏,而l2正則的解變小的速度更快,更容易形成小數值的解,即抗過擬合能力更強些。

(雖然實際上引數更新是經驗損失項的梯度與正則梯度的共同作用,l2正則下的有些引數也是能變成0的,只是一般來說其解的稀疏度不如l1正則。)

L1 L2損失 和 L1 L2正則化

1 l1損失 最小絕對值誤差 最小化 值 真實值 的絕對值,魯棒性強。2 l2損失 最小平方誤差 最小化 值 真實值 的平方,對於大於1的數,平方更大,因此對樣本敏感。3 l1正則化 l1正則化和l2正則化可以看做是損失函式的懲罰項,l1正則化是指權值向量中各個元素的絕對值之和。l1正則化可以產生稀...

L1 L2正則化介紹

1 正則化 regularization 對引數w的影響 說明 loss 代表原始的代價函式,後面那一項就是l2正則化項,它是這樣來的 所有引數w的平方的和,除以訓練集的樣本大小n。就是正則項係數,權衡正則項.在這裡並沒有除以樣本數量和2,是因為使用了絕對值誤差。一般情況下,los s y y 2 ...

L1,L2正則化的區別

1,l1會趨向於產生少量的特徵,而其他不重要的特徵都為0,會產生稀疏性,可以用來選擇特徵,也能一定程度上防止過擬合。而l 2會選擇更多的特徵,特徵值都趨近於0,防止過擬合。lasso在選擇特徵時非常有用,而ridge就只是規則化而已。所以在所有特徵中只有少數特徵起重要作用的情況下,選擇lasso進行...