h(
x)為目標函式
θ 為引數parameters xn
為特徵
n 為特徵個數 mh
(x)=
hθ(x
)=θ0
+θ1∗
x1+θ
2∗x2
+...
+θn∗
xn即 h(
x)=h
θ(x)
=∑i=
0nθi
∗xi=
θtx
根據訓練集(training sets)求出θ
其中一種方法為最小二乘方(lms,least mean squares): mi
nθj(
θ)其中 j(
θ)=1
2∑i=
1n(h
θ(xi
)−yi
)2表示估計值與真實值之間的誤差
計算求解
θ 的一種方法為梯度下降法:
考慮只有乙個樣本點時
重複對上式計算,直到
θ 值不變時,結果收斂。
其中,α
將該方法拓展到對個訓練物件時,有兩種梯度下降方法,第一種叫做批量梯度下降(batch gradient descent):
該方法最小化所有訓練樣本的損失函式,使得最終求解的是全域性的最優解,即求解的引數是使得風險函式最小。計算量大
另外一種叫做隨機梯度下降(stochastic gradient descent):
該方法最小化每條樣本的損失函式,雖然不是每次迭代得到的損失函式都向著全域性最優方向, 但是大的整體的方向是向全域性最優解的,最終的結果往往是在全域性最優解附近。計算量小
2.1矩陣微分
跡的符號為
關於矩陣跡的一些性質
這些性質可以自己證明
2.2再探最小均方差
下面將用矩陣運算的思想來求解最小均方差的解
首先把目標函式使用矩陣形式表示
上式證明,將問題矩陣化後,導數為0,可以求出
θ 的值
監督學習應用 梯度下降
andrew ng 機器學習筆記 這一系列文章文章是我再 andrew ng的stanford公開課之後自己整理的一些筆記,除了整理出課件中的主要知識點,另外還有一些自己對課件內容的理解。同時也參考了很多優秀博文,希望大家共同討論,共同進步。參考博文 本節課程內容包括 1 linear regres...
監督學習應用 梯度下降
andrew ng 機器學習筆記 這一系列文章文章是我再 andrew ng的stanford公開課之後自己整理的一些筆記,除了整理出課件中的主要知識點,另外還有一些自己對課件內容的理解。同時也參考了很多優秀博文,希望大家共同討論,共同進步。參考博文 本節課程內容包括 1 linear regres...
監督學習應用 梯度下降筆記
第1 2節主要就是講了線性回歸的東西。課程中用了兩種方法來解決引數求解的問題 1是梯度下降的方法 2是稱為隨機 增量 梯度下降的方法。首先我們來看下面這張圖 我們已知一些 x,y 點的分布。現在我假設有一已知的x,想求期望的y是多少。假設現在我能 用y h x 表示x和y的關係。那麼輸入x,輸出y就...