牛頓下降法和梯度下降法最速下降法的速度的比較

「牛頓下降法和梯度下降法在機器學習和自適應濾波中的都很重要，本質上是為了尋找極值點的位置。但是收斂的速度不同。本文中就兩種方法來**一下，哪種收斂方法速度快「

牛頓下降法的遞推公式： x

n+1=

xn−f

′(xn

)/f′′

(xn)

梯度下降演算法的遞推公式： x

n+1=

xn−μ

∗f′(

xn)

下圖是兩種方法的圖示表示，紅色為牛頓下降法，綠色為梯度下降法，從圖中直觀的感覺是，紅色線短，下降速度快。因為牛頓下降法是用二次曲面去擬合當前的區域性曲面，而梯度下降法是用平面去擬合當前的區域性曲面，一般用二次曲面擬合的更好，所以一般牛頓演算法收斂快。

關於以上的說法中，梯度下降法是用平面去擬合當前的區域性曲面。梯度 f』(x)的方向是函式變大的方向。這裡需要解釋一下，對於一維情況而言，梯度方向只有正方向和負方向。至於為什麼梯度下降演算法就是用平面去擬合了，大多數情況下，沒有講的詳細。接下來就聊一下為什麼。

首先考慮一下這個公式，這是一階泰勒展式，其實就是用平面去擬合函式的區域性曲面。 f

(x+δ

x)=f

(x)+

f′(x

)∗δx

我們的目的是使得左邊的值變小，那是不是應該使得下面的式子變為負值。 f

′(x)

∗δx

這樣不就會使得左邊的式子變小嗎。

但是如何使得上式一定為負值，簡單的方法就是： δ

x=−f

′(x)

這樣上式就變為 f

(x+δ

x)=f

(x)−

f′(x

)∗f′

(x)

現在滿足使得下式變小了 f

(x+δ

x)但是不要忘了以上所有的一切只有在區域性成立，也就是說在小範圍才成立，那麼下式就有很能太大 δ

x=−f

′(x)

所以加個小的修正的因子，上式就變為： δ

x=−μ

∗f′(

x)最終得到公式： x

n+1=

xn−μ

∗f′(

xn)

這就是為什麼說梯度下降演算法是用平面擬合函式的區域性曲面。

至於說牛頓下降法是用二次曲面去擬合當前的區域性曲面，首先考慮一下下式： f

(x+δ

x)=f

(x)+

f′(x

)δx+

1/2∗

f′′(x

)∗δx

2

同樣我們希望左式最小，那麼將左式看成是△x的函式，當取合適的△x值時，左邊的式子達到極小值，此時導數為0。因此對上式進行求導數，得到一下公式： 0

=f′(

x)+f

′′(x)

∗δx

此時可得到公式： x

n+1=

xn−f

′(xn

)/f′′

(xn)

所以說牛頓下降法是用二次曲面來擬合函式的區域性曲面。

綜上而言，牛頓下降法利用了函式的更多的資訊，能夠更好的擬合區域性曲面，所以收斂的速度也會加快。

關於梯度下降演算法，其中最重要的就是要確定步長μ，它的值嚴重的影響了梯度下降演算法的表現。

接下來考慮如下公式： f

′(x+

δx)=

f′(x

)+f′′

(x)∗

δx和

δx=−μ∗f

′(x)

結合兩個式子，得到： f

′(x+

δx)=

f′(x

)−μ∗

f′′(x

)∗f′

(x)

令左邊的式子為0，得到： μ

=1/f

′′(x)

由此可見牛頓下降法是梯度下降法的最優情況，因此牛頓下降法的收斂的速度必然更快。

梯度下降法和牛頓下降法
泰勒公式可以表示為 f boldsymbol boldsymbol f boldsymbol boldsymbol boldsymbol frac boldsymbol boldsymbol boldsymbol o boldsymbol tag 在 2 中 boldsymbol x 1,x n b...

牛頓下降法和梯度下降法最速下降法的速度的比較
牛頓下降法和梯度下降法在機器學習和自適應濾波中的都很重要，本質上是為了尋找極值點的位置。但是收斂的速度不同。本文中就兩種方法來一下，哪種收斂方法速度快牛頓下降法的遞推公式 xn 1 x n f xn f xn 梯度下降演算法的遞推公式 xn 1 x n f x n 下圖是兩種方法的圖示表示，紅色...

機器學習最速下降法和牛頓下降法
入門教材常用二分法來求解實數求根的問題。我們現在來用普通迭代法下降法來求解實數開立方根的問題。設當前實數為n，求根次數為k，根為s,那麼有s k n。所得偏差函式為f s s k n。顯然當代價函式f s 0時，我們便求出了n的k次根。現在我們開立方根，那麼k 3，代價函式為f s s 3 n。普...

牛頓下降法和梯度下降法 最速下降法 的速度的比較

梯度下降法和牛頓下降法

牛頓下降法和梯度下降法 最速下降法 的速度的比較

機器學習 最速下降法和牛頓下降法

相關推薦

牛頓下降法和梯度下降法最速下降法的速度的比較

牛頓下降法和梯度下降法最速下降法的速度的比較

機器學習最速下降法和牛頓下降法