深度學習關於負梯度方向，函式值下降最大的思考

負梯度方向是函式值下降最快的方向

我想每乙個接觸接觸機器學習或者深度學習的人都對這句話倒背如流，但是隨著時間的推移，很多概念及其背後的數學原理變得模糊。也是因為面試過程中被問及「為什麼負梯度方向是函式值下降最快的方向？」，所以才突然發現是時候需要鞏固一下這些塵封在腦海深處的知識點了。

什麼是梯度？

首先回顧一下導數、方向導數、偏導數這幾個概念：

導數（數）

導數（導函式值，微商），指的是對於y=f

)y=f(x)

y=f(x)

，當x

xx在某點x

0x_0

x0處產生增量δ

x\delta

δx時函式值的增量δ

y\delta

δy，若δ

x\delta

δx趨向於0時，δy/

δx

\delta/\delta

δy/δ

x存在，則x

0x_0

x0處導數f′(

)f'(x_0)

f′(x0

)為：f ′(

x0)=

lim⁡δx

→0δy

δx

f'(x_0)=\lim_\to}\frac}}

f′(x0

)=δx

→0limδx

δy方向導數（數）

對於乙個多元函式，如二元函式（函式為曲面），方向導數即沿著某個方向的導數值。

偏導數（數）

偏導數是方向倒數的特例，特指沿著各變數座標軸方向的方向導數。

梯度（向量）

梯度就是多元函式y=f

)y=f(\pmb)

y=f(xx

x)在點p (x

0,x1

,...

)p(x_0,x_1,...)

p(x0,

x1,

...)

的各變數在其座標軸方向上的偏導數組成的向量

g ra

df=∂

f(x)

∂x=[

∂f(x

)∂x0

,∂f(

x)∂x

1,..

tgradf =\frac)}}}} =[ \frac )}} }, \frac )}} }, ... ]^t

gradf=

∂***

∂f(x

xx)

=[∂x

0∂f

(***

),∂

x1∂

f(xx

x),

...]

t梯度是乙個向量，所以梯度是有大小和方向的

傳說中的負梯度方向，也就是這個向量的負方向！

那麼進入正題：

為什麼負梯度方向，也就是這個向量的負方向，函式值下降最大呢？？？

這個問題（尋找函式值下降最快的方向）其實等價於，尋找方向導數最大的方向，而這個方向為什麼就是負梯度方向？？？

這個我原來一直不理解就在於沒有想到切平面這個概念。一維的是時候，導數對應斜率，可以用切線直觀表達。而到了二維空間，我以為是由經過該點的無數條切線組成，但這些切線並非在同乙個平面上。如果他們都在乙個平面上也就組成了乙個切平面，那麼任意兩個垂直方向的偏導組成的向量能夠得到最大方向倒數的方向也就很容易推導了。

但，為什麼是切平面呢？

曲面的切平面存在性證明

深度學習關於負梯度方向，函式值下降最大的思考

深度學習基礎梯度下降

關於深度學習

關於深度學習

深度學習 關於負梯度方向，函式值下降最大的思考

深度學習基礎 梯度下降

關於深度學習

關於深度學習

相關推薦

深度學習關於負梯度方向，函式值下降最大的思考

深度學習基礎梯度下降