正則化時，L1比L2更容易使引數變得稀疏

假設費用函式 l 與某個引數 x 的關係如圖所示：

則最優的 x 在綠點處，x 非零。

現在施加 l2 regularization，新的費用函式（

最優的 x 在黃點處，x 的絕對值減小了，但依然非零。

而如果施加 l1 regularization，則新的費用函式（

最優的 x 就變成了 0。這裡利用的就是絕對值函式的尖峰。

兩種 regularization 能不能把最優的 x 變成 0，取決於原先的費用函式在 0 點處的導數。

如果本來導數不為 0，那麼施加 l2 regularization 後導數依然不為 0，最優的 x 也不會變成 0。

而施加 l1 regularization 時，只要 regularization 項的係數 c 大於原先費用函式在 0 點處的導數的絕對值，x = 0 就會變成乙個極小值點。

上面只分析了乙個引數 x。事實上 l1 regularization 會使得許多引數的最優值變成 0，這樣模型就稀疏了。

l1和l2正則化 l1與l2正則化都是防止模型過擬合，其方式略有不同。具體請見下文。1 l1 正則化l1正則化 1範數是指，各權值變數特徵絕對值之和。其作用是產生權值的稀疏模型，也就是讓大部分權值為0.為什麼能產生權值稀疏模型？因為如下圖所示，各權值絕對值之和後得到乙個矩陣，很容易在矩陣的頂...

機器學習中幾乎都可以看到損失函式後面會新增乙個額外項，常用的額外項一般有兩種，一般英文稱作 1 norm和 2 norm，中文稱作l1正則化和l2正則化或者l1範數和l2範數 l1正則化和l2正則化可以看做是損失函式的懲罰項。所謂懲罰是指對損失函式中的某些引數做一些限制。對於線性回歸模型，...

l0範數表示向量中非零元素的個數也就是如果我們使用l0範數，即希望 w的大部分元素都是0 w是稀疏的所以可以用於ml中做稀疏編碼特徵選擇。通過最小化l0範數，來尋找最少最優的稀疏特徵項但不幸的是，l0範數的最優化問題是乙個np hard問題，而且理論上有證明，l1範數是l0範數的最優凸近...