總結無約束極值的基本內容以及線性分類器和回歸的基礎知識,包含梯度下降相比於約束極值問題,無約束極值問題去掉了約束,因此表述方式非常簡單:mi
nf(x
),x∈
en(1)
現假設f(x
) 有一階連續偏導,極小值點為x∗
,x(k
) 為第k次接近。在x(
k)點沿著方向p(
k)做射線,有:x(
k+1)
=x(k
)+λp
(k),
(λ⩾0
)(2)
對上面式子進行泰勒展開:f(
x(k+
1))=
f(x(
k)+λ
p(k)
)=f(
x(k)
)+λ▽
f(x(
k))t
p(k)
+o(λ
)(3) ∵
limλ→0
o(λ)
λ=0
∴ 只要有 ▽f
(x(k
))tp
(k)<0
即可有f(x
(k)+
λp(k
))x(k)
) 又∵
▽f(x(k
))tp
(k)=
∥∥▽f
(x(k
))∥∥
∥∥p(
k)∥∥
cosθ
當θ 為180°的時候,上式取最小值,這說明負梯度方向函式下降最快。
計算過程大體如下:從x
0 開始,如果∥∥
▽f(x
(0))
∥∥2<
ε ,退出。 否則x
(1)=
x(0)
−λ0▽
f(x(
0))
這裡會有
λ 的選擇問題。如果
λ 具有二階導數,那麼可以對f(
x(k)
−λ▽f
(x(k
))進行泰勒展開:f(
x(k)
−λ▽f
(x(k
))≈f
(x(k
)−▽f
(x(k
))tλ
▽f(x
(k))
+12λ
▽f(x
(k))
th(x
(k))
λ▽f(
x(k)
)(4) 對
λ 求導數,並令其為0,可以得到:λk
=▽f(
x(k)
)t▽f
(x(k
))▽f
(x(k
))th
(x(k
))▽f
(x(k
))(5)
其中:h(x
)=⎛⎝
⎜⎜⎜⎜
⎜⎜⎜∂
2f(x
)∂x2
1...
∂2f(
x)∂x
n∂x1
....
....
.∂2f
(x)∂
x1∂x
n...
∂2f(
x)∂x
2n⎞⎠
⎟⎟⎟⎟
⎟⎟⎟(6)
對於乙個線性分類器,假設資料集均可正確分類,那麼我們只需找到乙個分類超平面,使得所有的錯分點到分類超平面的距離最短即可。
我們假設分類超平面的公式如下:g(
x)=ω
tx=0
(7)
那麼點到直線的距離可以用∣∣
ωtx∣
∣ 來表示。現在我們可以構建乙個無約束極值問題,並使用梯度下降法來尋找分類超平面的問題。
代價函式定義為:j(
ω)=∑
x∈y(
δxωt
x)(8)
其中y代表分類錯誤集,δx
定義為:x∈
ω1,δ
x=−1
;x∈ω
2,δx
=1。ω∗x
>0,
∀x∈ω
1 。
因此代價函式即是保證每項因子為正的情況下最小化各個錯分類的點到分類超平面的距離。
這裡我們使用梯度下降法來計算最優的
ω ,即:ω(
t+1)
=ω(t
)−ρt
∂j(ω
)∂ω∣
∣∣ω=
ω(t)
(9) 其中∂
j(ω)
∂ω=∑
x∈yδ
xx(10)
同樣考慮上述分類問題,如果類不是線性可分的情況下,那麼可以使用最小二乘法來解決問題,使期望值和輸出值之間的誤差平方和達到最小,從而構建這麼乙個最優分類器。其中損失函式定義如下:j(
ω)=∑
i=1n
(yi−
ωtix
)2≡∑
i=1n
(e2i
)(11) 令
∂j(ω
)∂ω=
0 ,我們可以得到:∑i
=1nx
i(yi
−xti
ω)=0
⇒(∑i
=1nx
ixti
)ω=∑
i=1n
(xiy
i)(11) 令
x=⎛⎝
⎜x11.
..xn
1...
....
..x1
l...
xnl⎞
⎠⎟y=
⎛⎝⎜y
1...
yn⎞⎠
⎟ 那麼我們可以得到下列公式: (x
tx)ω
^=xt
y⇒ω^
=(xt
x)−1
xty(12)
上述最小二乘內容其實可以通用於分類和回歸。也就是
y 不同而已。
在實際使用中(例如spark等集群計算中),對於回歸等的計算過程仍然使用梯度下降法進行計算,其原因是求(x
tx)−
1的時候很有可能矩陣的逆不存在,而使用偽逆進行運算的話如果矩陣奇異,那麼結果十分不可信,會得到錯誤的結論(elm極限學習機就是乙個非常現實的例子)。但是在spark中使用了隨機梯度下降法,每次並不需要將整個測試集帶入來求得
ω ,而是隨機選取乙個點進行相應梯度的下降。
通過上述公式9,並將j(
ω)替換為最小二乘法中的損失函式,我們可以得到如下內容:ω(
t+1)
=ω(t
)−∑i
=1nρ
xi(y
i−xt
iω)(13)
也就是說,調整權值使用了所有測試集中的點。
隨機梯度下降就是僅僅使用了隨機的乙個點進行權值的調整。
線性回歸, 邏輯回歸和線性分類器
線性回歸,linear regression 邏輯回歸,logistic regression 線性分類器,linear classifier 邏輯分類器,logistic classifier.注意,這個名詞是我在文章中為了方便說明問題造出來的.線性回歸可以看作乙個perceptron,啟用函式是...
無約束非線性優化經典演算法學習筆記
本部落格僅為學習筆記。有函式x 梯度下降法的迭代公式為 xk 1 x k ag k 其中g k 為x 在x k點的導數。當x為標量時 xk 1 x k x x 當x為向量時 xk 1 x k h 1kgk 其中 h 1 為 hession矩陣的逆函式,g為一階導數向量。在牛頓法中,每次都需要求h 1...
線性分類器和非線性分類器
線性和非線性的區別 1.線性linear,指量與量之間按比例 成直線的關係,在數學上可以理解為一階導數為常數的函式 非線性non linear則指不按比例 不成直線的關係,一階導數不為常數。2.線性的可以認為是1次曲線,比如y ax b 即成一條直線 非線性的可以認為是2次以上的曲線,比如y ax ...