訓練中加入L2正則化的影響和功效

2021-10-19 15:06:08 字數 749 閱讀 1695

在深度學習中,用的比較多的正則化技術是l2正則化,其形式是在原先的損失函式後邊再加多一項:12??2?12λθi2,那加上l2正則項的損失函式就可以表示為:?(?)=?(?)+?∑???2?l(θ)=l(θ)+λ∑inθi2,其中?θ就是網路層的待學習的引數,?λ則控制正則項的大小,較大的取值將較大程度約束模型複雜度,反之亦然。

l2約束通常對稀疏的有尖峰的權重向量施加大的懲罰,而偏好於均勻的引數。這樣的效果是鼓勵神經單元利用上層的所有輸入,而不是部分輸入。所以l2正則項加入之後,權重的絕對值大小就會整體傾向於減少,尤其不會出現特別大的值(比如雜訊),即網路偏向於學習比較小的權重。所以l2正則化在深度學習中還有個名字叫做「權重衰減」(weight decay),也有一種理解這種衰減是對權值的一種懲罰,所以有些書裡把l2正則化的這一項叫做懲罰項(penalty)。

我們通過乙個例子形象理解一下l2正則化的作用,考慮乙個只有兩個引數?1w1和?2w2的模型,其損失函式曲面如下圖所示。從a可以看出,最小值所在是一條線,整個曲面看起來就像是乙個山脊。那麼這樣的山脊曲面就會對應無數個引數組合,單純使用梯度下降法難以得到確定解。但是這樣的目標函式若加上一項0.1×(?21+?22)0.1×(w12+w22),則曲面就會變成b圖的曲面,最小值所在的位置就會從一條山嶺變成乙個山谷了,此時我們搜尋該目標函式的最小值就比先前容易了,所以l2正則化在機器學習中也叫做「嶺回歸」(ridge regression)。

L1正則化和L2正則化

為了降低過擬合風險,需要控制模型複雜度,自然想到減少引數個數,但是這個問題不易直接解決,可以通過放寬條件控制。新增優化條件 這會使引數條件空間有明顯的凸角,這些突出點顯然會成為聯合優化時的最優解,但同時這些這些凸點中又會有較多的0值 由其限制條件可見,凸點都在座標軸上 因此l1範數會更易得到稀疏解,...

L1正則化和L2正則化

l1標準化與l2標準化 參考 l1 l2標準化及其python 實現 我們知道,正則化的目的是限制引數過多或者過大,避免模型更加複雜。l1 與 l2 解的稀疏性 以二維情況討論,上圖左邊是 l2 正則化,右邊是 l1 正則化。從另乙個方面來看,滿足正則化條件,實際上是求解藍色區域與黃色區域的交點,即...

L1正則化和L2正則化

摘自 深度學習 l1正則化和l2正則化 在機器學習中,我們非常關心模型的 能力,即模型在新資料上的表現,而不希望過擬合現象的的發生,我們通常使用正則化 regularization 技術來防止過擬合情況。正則化是機器學習中通過顯式的控制模型複雜度來避免模型過擬合 確保泛化能力的一種有效方式。如果將模...