摘錄自:
nov 16, 2013
假設我們要求解以下的最小化問題:
minxf(
x)。
如果f(x
) 可導,那麼乙個簡單的方法是使用gradient descent (gd)方法,也即使用以下的式子進行迭代求解:xk
+1:=x
k−α∇
f(xk
)。
對gd的一種解釋是x
k 沿著當前目標函式的下降方向走一小段,只要步子足夠小,總能保證得到 f(x
k+1)
≤f(x
k)。如果∇f(
x)滿足l-lipschitz條件,即:∥∇
f(x′
)−∇f
(x)∥≤
l∥x′
−x∥,
那麼我們可以在點x
k 附近把f(x
) 近似為:f^
(x,x
k)≜f
(xk)
+⟨∇f
(xk)
,x−x
k⟩+l
2∥x−
xk∥2
2。
把上面式子中各項重新排列下,可以得到:f^
(x,x
k)≜f
(xk)
+⟨∇f
(xk)
,x−x
k⟩+l
2∥x−
xk∥2
2=l2
∥x−(
xk−1
l∇f(
xk))
∥22+
φ(xk
)。
顯然f^(x
,xk)
的最小值在xk
+1=x
k−1l
∇f(x
k)
獲得。所以,從這個角度上看的話,gd的每次迭代是在最小化原目標的乙個二次近似函式。
在很多最小化問題中,我們往往會加入非光滑的懲罰項g(x
) ,比如常見的l1懲罰:g(x
)=∥x∥
1 。這個時候,gd就不好直接推廣了。但上面的二次近似思想卻可以推廣到這種情況:xk
+1=arg
minxf^
(x,x
k)=arg
minxl2
∥x−(
xk−1
l∇f(
xk))
∥22+
g(x)
。 這就是所謂的proximal gradient descent(pgd)演算法1
。只要給定g(x
) 時下面的最小化問題能容易地求解,pgd就能高效地使用:
proxμg
(z)=
argminx1
2∥x−
z∥22
+μg(
x)。
比如g(x
)=∥x∥
1 時,proxμg
(z) 能夠通過所謂的soft thresholding獲得:
proxμg
(z)=
sign(z
)max。
john wright. lecture iii: algorithms, 2013. ↩
L1正則化的理解
在 中看到l1正則化,可以實現降維,加大稀疏程度,菜鳥不太懂來直觀理解學習一下。在工程優化中也學習過懲罰函式這部分的內容,具體給忘記了。而正則化正是在損失函式後面加乙個額外的懲罰項,一般就是l1正則化和l2正則化。之所以叫懲罰項就是為了對損失函式 也就是工程優化裡面的目標函式 的某個或些引數進行限制...
正則化項L1和L2的區別
一 概括 l1和l2是正則化項,又叫做罰項,是為了限制模型的引數,防止模型過擬合而加在損失函式後面的一項。二 區別 1.l1是模型各個引數的絕對值之和。l2是模型各個引數的平方和的開方值。2.l1會趨向於產生少量的特徵,而其他的特徵都是0.因為最優的引數值很大概率出現在座標軸上,這樣就會導致某一維的...
正則化項L1和L2的區別
一 概括 l1和l2是正則化項,又叫做罰項,是為了限制模型的引數,防止模型過擬合而加在損失函式後面的一項。二 區別 1.l1是模型各個引數的絕對值之和。l2是模型各個引數的平方和的開方值。2.l1會趨向於產生少量的特徵,而其他的特徵都是0.因為最優的引數值很大概率出現在座標軸上,這樣就會導致某一維的...