帶L1正則化項的近似梯度下降

2021-08-11 19:31:13 字數 1697 閱讀 4051

摘錄自:

nov 16, 2013

假設我們要求解以下的最小化問題:

minxf(

x)。

如果f(x

) 可導,那麼乙個簡單的方法是使用gradient descent (gd)方法,也即使用以下的式子進行迭代求解:xk

+1:=x

k−α∇

f(xk

)。

對gd的一種解釋是x

k 沿著當前目標函式的下降方向走一小段,只要步子足夠小,總能保證得到 f(x

k+1)

≤f(x

k)。如果∇f(

x)滿足l-lipschitz條件,即:∥∇

f(x′

)−∇f

(x)∥≤

l∥x′

−x∥,

那麼我們可以在點x

k 附近把f(x

) 近似為:f^

(x,x

k)≜f

(xk)

+⟨∇f

(xk)

,x−x

k⟩+l

2∥x−

xk∥2

2。

把上面式子中各項重新排列下,可以得到:f^

(x,x

k)≜f

(xk)

+⟨∇f

(xk)

,x−x

k⟩+l

2∥x−

xk∥2

2=l2

∥x−(

xk−1

l∇f(

xk))

∥22+

φ(xk

)。

顯然f^(x

,xk)

的最小值在xk

+1=x

k−1l

∇f(x

k)

獲得。所以,從這個角度上看的話,gd的每次迭代是在最小化原目標的乙個二次近似函式。

在很多最小化問題中,我們往往會加入非光滑的懲罰項g(x

) ,比如常見的l1懲罰:g(x

)=∥x∥

1 。這個時候,gd就不好直接推廣了。但上面的二次近似思想卻可以推廣到這種情況:xk

+1=arg

minxf^

(x,x

k)=arg

minxl2

∥x−(

xk−1

l∇f(

xk))

∥22+

g(x)

。 這就是所謂的proximal gradient descent(pgd)演算法1

。只要給定g(x

) 時下面的最小化問題能容易地求解,pgd就能高效地使用:

proxμg

(z)=

argminx1

2∥x−

z∥22

+μg(

x)。

比如g(x

)=∥x∥

1 時,proxμg

(z) 能夠通過所謂的soft thresholding獲得:

proxμg

(z)=

sign(z

)max。

john wright. lecture iii: algorithms, 2013. ↩

L1正則化的理解

在 中看到l1正則化,可以實現降維,加大稀疏程度,菜鳥不太懂來直觀理解學習一下。在工程優化中也學習過懲罰函式這部分的內容,具體給忘記了。而正則化正是在損失函式後面加乙個額外的懲罰項,一般就是l1正則化和l2正則化。之所以叫懲罰項就是為了對損失函式 也就是工程優化裡面的目標函式 的某個或些引數進行限制...

正則化項L1和L2的區別

一 概括 l1和l2是正則化項,又叫做罰項,是為了限制模型的引數,防止模型過擬合而加在損失函式後面的一項。二 區別 1.l1是模型各個引數的絕對值之和。l2是模型各個引數的平方和的開方值。2.l1會趨向於產生少量的特徵,而其他的特徵都是0.因為最優的引數值很大概率出現在座標軸上,這樣就會導致某一維的...

正則化項L1和L2的區別

一 概括 l1和l2是正則化項,又叫做罰項,是為了限制模型的引數,防止模型過擬合而加在損失函式後面的一項。二 區別 1.l1是模型各個引數的絕對值之和。l2是模型各個引數的平方和的開方值。2.l1會趨向於產生少量的特徵,而其他的特徵都是0.因為最優的引數值很大概率出現在座標軸上,這樣就會導致某一維的...