L1正則與L2正則的區別

使用機器學習方法解決實際問題時，我們通常要用l1或l2範數做正則化(regularization) ，從而限制權值大小，減少過擬合風險。特別是在使用梯度下降來做目標函式優化時，很常見的說法是, l1正則化產生稀疏的權值, l2正則化產生平滑的權值。為什麼會這樣？這裡面的本質原因是什麼呢？下面我們從兩個角度來解釋這個問題。

l1正則化表示式

l2正則化表示式

一、數學角度

這個角度從權值的更新公式來看權值的收斂結果。

首先來看看l1和l2的梯度(導數的反方向）：

所以(不失一般性，我們假定：wi等於不為0的某個正的浮點數，學習速率η 為0.5)：

l1的權值更新公式為wi = wi - η * 1 = wi - 0.5 * 1，也就是說權值每次更新都固定減少乙個特定的值(比如0.5)，那麼經過若干次迭代之後，權值就有可能減少到0。

l2的權值更新公式為wi = wi - η * wi = wi - 0.5 * wi，也就是說權值每次都等於上一次的1/2，那麼，雖然權值不斷變小，但是因為每次都等於上一次的一半，所以很快會收斂到較小的值但不為0。

下面的圖很直觀的說明了這個變化趨勢：

二、空間角度

這個角度從幾何位置關係來看權值的取值情況

高維我們無法想象，簡化到2維的情形，如上圖所示。其中，左邊是l1圖示，右邊是l2圖示，左邊的方形線上是l1中w1/w2取值區間，右邊的圓形線上是l2中w1/w2的取值區間，綠色的圓圈表示w1/w2取不同值時整個正則化項的值的等高線（凸函式），從等高線和w1/w2取值區間的交點可以看到，l1中兩個權值傾向於乙個較大另乙個為0，l2中兩個權值傾向於均為非零的較小數。這也就是l1稀疏，l2平滑的效果。

總結：l1是模型各個引數的絕對值之和，l2則是模型各個引數的平方和的開方子值；

l1會趨向於產生少量特徵，其他特徵都為0，l2則會選擇更多的特徵，這些特徵特徵都會接近與零。

L1正則與L2正則的區別

L1與L2正則化

L1與L2正則化

L1 與 L2 正則化

L1正則與L2正則的區別

L1與L2正則化

L1與L2正則化

L1 與 L2 正則化

相關推薦