假設費用函式 l 與某個引數 x 的關係如圖所示:
則最優的 x 在綠點處,x 非零。
現在施加 l2 regularization,新的費用函式(
最優的 x 在黃點處,x 的絕對值減小了,但依然非零。
而如果施加 l1 regularization,則新的費用函式(
最優的 x 就變成了 0。這裡利用的就是絕對值函式的尖峰。
兩種 regularization 能不能把最優的 x 變成 0,取決於原先的費用函式在 0 點處的導數。
如果本來導數不為 0,那麼施加 l2 regularization 後導數依然不為 0,最優的 x 也不會變成 0。
而施加 l1 regularization 時,只要 regularization 項的係數 c 大於原先費用函式在 0 點處的導數的絕對值,x = 0 就會變成乙個極小值點。
上面只分析了乙個引數 x。事實上 l1 regularization 會使得許多引數的最優值變成 0,這樣模型就稀疏了。
L1和L2正則化
l1和l2正則化 l1與l2正則化都是防止模型過擬合,其方式略有不同。具體請見下文。1 l1 正則化l1正則化 1範數 是指,各權值 變數 特徵 絕對值之和。其作用是產生權值的稀疏模型,也就是讓大部分權值為0.為什麼能產生權值稀疏模型?因為如下圖所示,各權值絕對值之和後得到乙個矩陣,很容易在矩陣的頂...
L1以及L2正則化
機器學習中幾乎都可以看到損失函式後面會新增乙個額外項,常用的額外項一般有兩種,一般英文稱作 1 norm和 2 norm,中文稱作l1正則化 和l2正則化 或者l1範數 和l2範數 l1正則化和l2正則化可以看做是損失函式的懲罰項。所謂 懲罰 是指對損失函式中的某些引數做一些限制。對於線性回歸模型,...
關於L1和L2正則
l0範數表示向量中非零元素的個數 也就是如果我們使用l0範數,即希望 w的大部分元素都是0 w是稀疏的 所以可以用於ml中做 稀疏編碼 特徵選擇。通過最小化l0範數,來尋找 最少最優的稀疏特徵項 但不幸的是,l0範數的最優化問題是乙個np hard問題,而且理論上有證明,l1範數是l0範數的最優凸近...