之前講到了利用正則化項降低過擬合,這裡再總結一下l1,l2這兩種範數作為正則化項各自的特點及區別
在深度學習一書中,帶有l2範數的正則化項的目標函式如下:
其中 wtw
wwtw=∣∣w∣
∣2^2∣∣
w∣∣2
,即為l2範數,其實運用仔細一看這個就是帶有不等式約束的拉格朗日函式最優化問題即:
minj(w;x,y)
s.t. ∣∣w
∣∣2^2
∣∣w∣∣2
<=c
用圖表示(來自prml,假設是二維的)如下;
其中藍色代表未新增正則化項的經驗損失函式j的等高線,橙色即為約束條件區域,我們可以看到在滿足約束條件時j的最小值就是兩者的只有乙個交點的相交處w∗w∗
怎麼理解呢,其實當沒有約束時,j的最小值應該在a處,但是新增了約束,那我們現在不僅j要小(越來越接近中心的a),還要使得這個圓形越小越好。那麼還和原來一樣取最優值為a的話,過中心a的那個圓形明顯很大,即代表模型複雜度過高容易過擬合,因此我們要取到乙個恰好的值,怎麼確定就是w∗w∗
為最優值呢?
看上圖,我們選擇j的最外層那個等值線,對於這條曲線上的每個點都可以做乙個圓形,根據
上圖可知,當這個圓形與某條等高線相切(僅有乙個交點)的時候,這個圓形最小,也就是說在相同的j取值下,由於小紅圓形代表的∣∣w
∣∣2^2
∣∣w∣∣2
小,所以使得最終的目標函式取得值最小。
帶有l1範數的目標函式如下:
類似上面的分析,上式等價於:
minj(w;x,y)
s.t. ∣∣w
∣∣∣∣w∣
∣<=c
同樣有下圖:
其中藍色代表未新增正則化項的經驗損失函式j的等高線,橙色即為約束條件區域,我們可以看到在滿足約束條件時j的最小值就是兩者的只有乙個交點的相交處w∗w∗
,關於w∗w∗
為最優點的解釋同上。
通過觀察上面兩個圖,我們便可以發現l1範數約束的圖形中只有乙個交點的最優值處很容易相交在座標軸處,這也就使得l1範數的正則化很容易使某些維度的引數為0,從而得到稀疏解,達到了所謂的特徵選擇的作用。
l2範數約束的圖形只有乙個交點的最優值處,不容易交在座標軸上,但是仍然比較靠近座標軸。因此這也就是l2範數能讓解比較小(靠近0),但是比較平滑(不等於0),也就是權重衰減的概念。
兩者都可以降低過擬合,l1還可以用於特徵選擇
此處**自中曹榮禹的回答
深入理解L1 L2範數
說起l1 l2範數,大家會立馬想到這是機器學習中常用的正則化方法,一般新增在損失函式後面,可以看作是損失函式的懲罰項。那新增l1和l2正則化後到底有什麼具體作用呢?為什麼會產生這樣的作用?本篇博文將和大家一起去 l1範數 l2範數背後的原理。l1和l2的作用如下 理解l1,主要需要理解兩個問題。第一...
L1 L2範數 概念
向量的範數可以簡單形象的理解為向量的長度,或者向量到零點的距離,或者相應的兩個點之間的距離。向量的範數定義 向量的範數是乙個函式 x 滿足非負性 x 0,齊次性 cx c x 三角不等式 x y x y 常用的向量的範數 l0範數 x 0為x向量各個非零元素的個數 l1範數 x 1 為x向量各個元素...
L1 L2損失 和 L1 L2正則化
1 l1損失 最小絕對值誤差 最小化 值 真實值 的絕對值,魯棒性強。2 l2損失 最小平方誤差 最小化 值 真實值 的平方,對於大於1的數,平方更大,因此對樣本敏感。3 l1正則化 l1正則化和l2正則化可以看做是損失函式的懲罰項,l1正則化是指權值向量中各個元素的絕對值之和。l1正則化可以產生稀...