帶動量的隨機梯度下降法 詳解梯度下降法(乾貨篇)

2021-10-16 10:47:36 字數 538 閱讀 1478

目錄:

導言隨機梯度下降法

決策樹的分類

批梯度下降法

momentum梯度下降法

nesterov momentum梯度下降法

adagrad梯度下降法

adam梯度下降法

與其他無約束優化演算法的比較

梯度下降法是機器學習中一種常用到的演算法,但其本身不是機器學習演算法,而是一種求解的最優化演算法。主要解決求最小值問題,其基本思想在於不斷地逼近最優點,每一步的優化方向就是梯度的方向。

機器學習的本質就是「喂」給模型資料,讓模型不斷地去學習,而這個學習的過程就是利用梯度下降法不斷去優化的過程,目前最為常見的深度神經網路便是利用梯度的反向傳播,反覆更新模型引數直至收斂,從而達到優化模型的目的。

對於最簡單的線性模型,如

我們假設其損失函式為

那麼梯度下降的基本形式就是

其中,

動量梯度下降法 Momentum

動量梯度下降法是對梯度下降法的一種優化演算法,該方法學習率可以選擇更大的值,函式的收斂速度也更快。梯度下降法就像下面這張圖,通過不斷的更新 w與b,從而讓函式移動到紅點,但是要到達最優解,需要我們不斷的迭代或者調整學習率來達到最後到達最優解的目的。但是調大學習率會導致每一次迭代的步長過大,也就是擺動...

梯度下降法和隨機梯度下降法

批量梯度下降法 batch gradient descent 在更新引數時使用所有的樣本來進行更新 隨機梯度下降法 stochastic gradient descent 求梯度時沒有用所有的m個樣本的資料,而是僅僅選取乙個樣本j來求梯度。小批量梯度下降法 mini batch gradient d...

隨機梯度下降法

剛剛看完史丹福大學機器學習第四講 牛頓法 也對學習過程做一次總結吧。一 誤差準則函式與隨機梯度下降 數學一點將就是,對於給定的乙個點集 x,y 找到一條曲線或者曲面,對其進行擬合之。同時稱x中的變數為特徵 feature y值為 值。如圖 乙個典型的機器學習的過程,首先給出一組輸入資料x,我們的演算...