為簡單地說明,我們在一維情況下做乙個分析,設f(w
)f(w)
f(w)
是是沒有新增l1正則時的原始的目標函式,c∣w
∣c|w|
c∣w∣
是l1正則項,那麼新增正則之後的新的目標函式為h(ω
)=f(
ω)+c
∣ω∣h(\omega)=f(\omega)+c|\omega|
h(ω)=f
(ω)+
c∣ω∣
。如果要讓0點變成可能的最值點,因為c∣w
∣c|w|
c∣w∣
在0處不可導,但是只要滿足0點左右h(w
)h(w)
h(w)
的導數異號,0點都會變成可能的極值點。即:
h ′(
0−)×
h′(0
+)=(
f′(0
)+c)
(f′(
0)−c
)<
0h^(0-) \times h^(0+)=\left(f^(0)+c\right)\left(f^(0)-c\right)<0
h′(0−)
×h′(
0+)=
(f′(
0)+c
)(f′
(0)−
c)<
0也就是當滿足c
>∣f
′(0)
∣c>\left|f^(0)\right|
c>∣f
′(0)
∣時,0點都是可能的最值點。
注意:我認為不僅需要異號,必須左邊導數小於0,右邊大於0,這是代價函式在0處才是極小值。
下圖給出乙個簡單的代價函式為例:
l =x
3+2x
−3x3
+0.5
l=x^+2x-3x^+0.5
l=x3+2
x−3x
3+0.
5這裡l1正則設定為 2.5∣x
∣2.5\left| x \right|
2.5∣x∣
,l2正則設定為2.5x2
2.5x^
2.5x
2,分別新增到原始代價函式中lll
在新增了l1正則項和l2正則項後解的變化情況見圖中曲線
可以看到,因為有了l1正則,使得原始代價函式的解變成了現在的0,即解變得稀疏了。此時0是極小值點並且兩邊的導數是異號的。而l2正則使得原始的極值點更接近0了。
L1正則化與稀疏性 L1正則化不可導問題
l1正則化與稀疏性 座標軸下降法 解決l1正則化不可導的問題 lasso回歸演算法 座標軸下降法與最小角回歸法小結 l1正則化使得模型引數具有稀疏性的原理是什麼?機器學習經典之作 pattern recognition and machine learning 中的第三章作出的乙個解釋無疑是權威且直...
L1正則化產生稀疏模型,L2正則防止過擬合
j j0 alph a w w 1 1 j j0 a lpha w w 其中j0 j 0是原始的損失函式,後半部分為l1 l 1正則化項,為絕對值之和,j j 帶有絕對值符號的函式,因此 j role presentation j j是不完全可微的。機器學習的任務就是要通過一些方法 比如梯度下降 求...
正則化 L1正則化(稀疏性正則化)
稀疏向量通常包含許多維度。建立特徵組合會導致包含更多維度。由於使用此類高維度特徵向量,因此模型可能會非常龐大,並且需要大量的 ram。在高維度稀疏向量中,最好盡可能使權重正好降至 0。正好為 0 的權重基本上會使相應特徵從模型中移除。將特徵設為 0 可節省 ram 空間,且可以減少模型中的噪點。以乙...