從wiki上面摘錄下來
這個方法的作用是, 通過迭代, 迅速取得
的最小值所在的座標, 這樣就可以作為一些懲罰函式的優化方法
梯度下降法,基於這樣的觀察:如果實值函式
在點處可微且有定義,那麼函式
在點沿著梯度相反的方向
下降最快。
因而,如果
對於 為乙個夠小數值時成立,那麼
。考慮到這一點,我們可以從函式
的區域性極小值的初始估計
出發,並考慮如下序列
使得因此可得到
如果順利的話序列
收斂到期望的極值。注意每次迭代步長
可以改變。
下側的示例了這一過程,這裡假設
定義在平面上,並且函式影象是乙個碗形。藍色的曲線是等高線(水平集),即函式
為常數的集合構成的曲線。紅色的箭頭指向該點梯度的反方向。(一點處的梯度方向與通過該點的等高線垂直)。沿著梯度下降方向,將最終到達碗底,即函式
值最小的點。
之所以學到這個演算法, 是因為模式識別中的感知器演算法, 應用了這個方法去獲得最快收斂到最小值的懲罰函式
梯度下降法和隨機梯度下降法
批量梯度下降法 batch gradient descent 在更新引數時使用所有的樣本來進行更新 隨機梯度下降法 stochastic gradient descent 求梯度時沒有用所有的m個樣本的資料,而是僅僅選取乙個樣本j來求梯度。小批量梯度下降法 mini batch gradient d...
梯度下降法
梯度下降法 是乙個一階 最優化演算法 通常也稱為 最速下降法 我之前也沒有關注過這類演算法。最近,聽史丹福大學的機器學習課程時,碰到了用梯度下降演算法求解線性回歸問題,於是看了看這類演算法的思想。今天只寫了一些入門級的知識。我們知道,函式的曲線如下 程式設計實現 c code cpp view pl...
梯度下降法
回歸 regression 梯度下降 gradient descent 發表於332 天前 技術,科研 被圍觀 1152 次 前言 這個系列主要想能夠用數學去描述機器學習,想要學好機器學習,首先得去理解其中的數學意義,不一定要到能夠輕鬆自如的推導中間的公式,不過至少得認識這些 式子吧,不然看一些相關...