考慮下面的訓練樣本:
我們希望通過房屋面積和臥室數量估計房屋**。
這在裡,輸入
x 是乙個2維的向量。
並且我們用x(
i)1表示訓練集中第
i 個樣本的第乙個特徵(這裡是居住面積),用x(
i)2表示第
i 個樣本的臥室數。
首先我們假設y關
於x的線
性函式為
:hθ(
x)=θ
0+θ1
x1+θ
2x2。為了方便,我們令x0
=1,這樣上式就可以寫成矩陣形式(我們不再區分h(
x)和h
θ(x)
): h(
x)=∑
i=0n
θixi
=θtx
我們期望通過h(
x)輸出的結果(即估計值),與樣本的實際值盡可能的接近,即h(
x(i)
)−y(
i)的絕對值盡量小。因此引入代價函式: j(
θ)=1
2∑i=
1m(h
θ(x(
i))−
y(i)
)2我們期望獲得使得j(
θ)盡可能小的
θ 。考慮梯度下降法: θj
:=θj−
α∂∂θ
jj(θ
) 這裡α
是學習速率,
θ 的初始值是隨機的(當然也可以指定初值)。
下面讓我們看上式中的求導部分,先考慮乙個樣本下的情況:
因此對於乙個訓練樣本我們可以得到更新規則:
下面將其擴充套件到整個訓練樣本集。兩種方法:
1、批梯度下降法,也就是對全部的訓練資料針對某一特徵上求得誤差後再對
θ 進行更新,需要一次讀取所有樣本。:
2、增量梯度下降,每次只讀取乙個樣本,依次用每個樣本來更新,該方法有可能因為
α 的選取不當導致無法收斂:
2 梯度下降 gradient decent
可參考文章 1.learning rate learning rate learning rate 2.自適應的learning rate 自適應調整的目標是 模型訓練的初始階段,adagrad 就是一種可以實現自適應調整學習速率的演算法,其公式如下 adagrad的思想如下 與gradient d...
090001 梯度下降
本講ng大牛講解了梯度下降 gradient descent 方法 首先以波特蘭奧勒岡的房屋面積和售價關係為例,講解了監督學習的一般模式,通過乙個訓練集,利用學習演算法,得到乙個假設 歷史原因造成的叫法,就是乙個 模型 當輸入值x進入,通過假設,得到乙個 值y,如圖所示 當只有乙個變數即面積時,其關...
二 梯度下降
第二講正式開始介紹機器學習中的監督學習,首先宣告了以下約定 對於m組訓練樣本,x表示其輸入 input feature y表示其輸出 target variable m是乙個正整數 表示個數的嘛 x和y可是是向量也可以是標量,不過入門而言一般y為標量,x i y i 表示訓練樣本,表示訓練集 我們的...