l2/l1正則化方法,就是最常用的正則化方法,它直接來自於傳統的機器學習。
l2正則化方法如下:
l1正則化方法如下:
那它們倆有什麼區別呢?最流行的一種解釋方法來自於模式識別和機器學習經典書籍,下面就是書中的圖。
這麼來看上面的那張圖,引數空間(w1,w2)是乙個二維平面,藍色部分是乙個平方損失函式,黃色部分是正則項。
藍色的那個圈,中心的點其實代表的就是損失函式最優的點,而同心圓則代表不同的引數相同的損失,可見隨著圓的擴大,損失增大。黃色的區域也類似,周邊的紅色線表示的是損失相同點的輪廓。
正則項的紅色輪廓線示平方損失的藍色輪廓線總要相交,才能使得兩者加起來的損失最小,兩者的所佔區域的相對大小,是由權重因子決定的。不管怎麼說,它們總有乙個交叉點。
對於l2正則化,它的交點會使得w1或者w2的某乙個維度特別小,而l1正則化則會使得w1或者w2的某乙個維度等於0,因此獲得所謂的稀疏化。
在深度學習框架中,大家比起l1範數,更鍾愛l2範數,因為它更加平滑和穩定。
L1 L2損失 和 L1 L2正則化
1 l1損失 最小絕對值誤差 最小化 值 真實值 的絕對值,魯棒性強。2 l2損失 最小平方誤差 最小化 值 真實值 的平方,對於大於1的數,平方更大,因此對樣本敏感。3 l1正則化 l1正則化和l2正則化可以看做是損失函式的懲罰項,l1正則化是指權值向量中各個元素的絕對值之和。l1正則化可以產生稀...
正則化方法 L1和L2
模型訓練是圍繞解決模型的欠擬合問題展開的,通過最小化損失函式來減小模型 值與真實值之間的誤差。因為資料集中總會有一些雜訊,模型在擬合資料時可能會把雜訊也擬合進來,導致模型過擬合。正則化是對損失函式的一種懲罰,即對損失函式中的某些引數進行限制。一般認為,引數值較小的模型比較簡單,能更好地適應不同的資料...
深度學習正則化 L0 L1 L2正則化
概念 l0正則化的值是模型引數中非零引數的個數。l1正則化表示各個引數絕對值之和。l2正則化標識各個引數的平方的和的開方值。先討論幾個問題 1 實現引數的稀疏有什麼好處嗎?乙個好處是可以簡化模型,避免過擬合。因為乙個模型中真正重要的引數可能並不多,如果考慮所有的引數起作用,那麼可以對訓練資料可以 的...