記號標識
標量:常規小寫字母;
向量:加粗的小寫字母: x=[
x1,⋯
,xm]
t∈rm
\bm x=[x_1,\cdots,x_m]^t \in \mathbb^m
x=[x1
,⋯,x
m]t
∈rm ;
實矩陣:加粗的大寫字母:x=[
x1,⋯
,xn]
t∈rm
×n
\bm x =[\bm x_1,\cdots,\bm x_n]^t \in \mathbb r^
x=[x1
,⋯,x
n]t
∈rm×
n函式的表示亦是如此,打字費勁,不做演示,小寫f
ff表示標量scalar函式,小寫粗體f
\bm f
f表示列向量函式,大寫粗體f
\bm f
f表示矩陣函式。
jacobian矩陣
1 ×m
1\times m
1×m行向量偏導運算元記為:
d x=
def∂
∂xt=
(∂∂x
1,⋯,
∂∂xm
)d_x \overset\frac=\left(\frac,\cdots,\frac\right)
dx=de
f∂xt
∂=(
∂x1
∂,⋯
,∂xm
∂)
由此可以看出,jacobian矩陣的核心在於,當求偏導時:
所以,jacobian矩陣簡單來講,就是求偏導時,自變數按照水平方向展開,函式按豎直方向展開。
梯度矩陣(這是重點)
採用列向量形式定義的偏導運算元稱為列向量偏導運算元,習慣上稱為梯度運算元,而梯度在機器學習中是乙個經常用到的概念。
梯度運算元計作∇
x\nabla_x
∇x,定義為:
∇ x=
def∂
∂x=(
∂∂x1
,⋯,∂
∂xm)
t\nabla_x\overset\frac=\left(\frac,\cdots,\frac\right)^t
∇x=de
f∂x∂
=(∂
x1∂
,⋯,
∂xm
∂)t
因此,實值標量函式f(x
)f(\bm x)
f(x)
的梯度向量∇xf
(x
)\nabla_\bm xf(\bm x)
∇xf(x
)為m×
1m\times1
m×1的列向量,定義為:
∇ xf
(x)=
def∂
f(x)
∂x=(
∂f(x
)∂x1
,⋯,∂
f(x)
∂xm)
t\nabla_xf(\bm x)\overset\frac=\left(\frac,\cdots,\frac\right)^t
∇xf(x
)=de
f∂x∂
f(x)
=(∂
x1∂
f(x)
,⋯,
∂xm
∂f(x
))t
由此可知:梯度矩陣的核心是:
梯度方向的負方向
− ∇x
f(x)
-\nabla_\bm xf(\bm x)
−∇xf(
x)稱為函式
f
ff在點
x
\bm x
x梯度流(gradient flow),從梯度向量的定義可以看出(沒有基礎當然看不出來):
(1) 在梯度流方向,函式
f (x
)f(\bm x)
f(x)
以最大速率下降;
(2) 在梯度正方向,函式
f (x
)f(\bm x)
f(x)
以最大速率上公升。
方向導數和梯度向量關係密切,方向導數的最大值為梯度向量的模長
∥ ∇x
f(x)
∥2
\|\nabla_\bm xf(\bm x)\|_2
∥∇xf(
x)∥2
,日後有機會可以一說。
更加廣義的表達方式對比實值矩陣函式f(x
)\bm f(\bm x)
f(x)
的梯度矩陣和jacobian矩陣:
∇ xf
(x)=
∂vec
tf(x
)∂ve
cx=(
∂vec
f(x)
∂vec
tx)t
=(dx
f(x)
)t
\nabla_\bm x \bm f(\bm x)=\frac=\left(\frac\right)^t=\left(d_\bm x\bm f(\bm x)\right)^t
∇xf(x
)=∂v
ecx∂
vect
f(x)
=(∂
vect
x∂ve
cf(x
))t
=(dx
f(x
))t其中:∂ve
cx
\partial vec \bm x
∂vec
x表示將自變數矩陣x
\bm x
x轉化為列向量,轉化的方式是按列順次拼接,最終以列的形式鋪陳;∂ve
ctf(
x)
\partial vec^t \bm f(\bm x)
∂vectf
(x)表示將實值矩陣函式f(x
)\bm f(\bm x)
f(x)
轉化為行向量,轉化的方式依舊是按列順次拼接,最終以行的形式鋪陳。其他同理。
總之,矩陣函式的梯度矩陣是其jacobian矩陣的轉置【transposition】。
梯度向量 Jacobian矩陣 Hessian矩陣
這裡,討論三個概念 梯度向量 jacobian矩陣 hessian矩陣 由自變數x x1,x2,xn t 因變數 為一維f x 時,此時其一階導數構成的向量為梯度向量g x 此時其二階導數構成的矩陣為hessian矩陣 為多維f x f1 x f2 x fm x t時,此時其一階導數構成的矩陣為ja...
Jacobian矩陣和Hessian矩陣
taylor s theorem 泰勒定理講的是 有乙個函式f x 是可微函式並且足夠光滑。那麼在函式某乙個點的各階導數值已知的情況下,泰勒公式可以用這些導數值作為多項式的係數,來近似函式在這一點的鄰域中的值。這個多項式就是泰勒多項式。泰勒公式還給出了餘項即這個多項式和實際函式值之間的偏差。泰勒級數...
Jacobian矩陣和Hessian矩陣
發表於 2012 年 8 月 8 日 1.jacobian 在向量分析中,雅可比矩陣是一階偏導數以一定方式排列成的矩陣,其行列式稱為雅可比行列式.還有,在代數幾何中,代數曲線的雅可比量表示雅可比簇 伴隨該曲線的乙個代數群,曲線可以嵌入其中.它們全部都以數學家卡爾 雅可比 carl jacob,180...