目錄:
導言隨機梯度下降法
決策樹的分類
批梯度下降法
momentum梯度下降法
nesterov momentum梯度下降法
adagrad梯度下降法
adam梯度下降法
與其他無約束優化演算法的比較
梯度下降法是機器學習中一種常用到的演算法,但其本身不是機器學習演算法,而是一種求解的最優化演算法。主要解決求最小值問題,其基本思想在於不斷地逼近最優點,每一步的優化方向就是梯度的方向。
機器學習的本質就是「喂」給模型資料,讓模型不斷地去學習,而這個學習的過程就是利用梯度下降法不斷去優化的過程,目前最為常見的深度神經網路便是利用梯度的反向傳播,反覆更新模型引數直至收斂,從而達到優化模型的目的。
對於最簡單的線性模型,如
我們假設其損失函式為
那麼梯度下降的基本形式就是
其中,
動量梯度下降法 Momentum
動量梯度下降法是對梯度下降法的一種優化演算法,該方法學習率可以選擇更大的值,函式的收斂速度也更快。梯度下降法就像下面這張圖,通過不斷的更新 w與b,從而讓函式移動到紅點,但是要到達最優解,需要我們不斷的迭代或者調整學習率來達到最後到達最優解的目的。但是調大學習率會導致每一次迭代的步長過大,也就是擺動...
梯度下降法和隨機梯度下降法
批量梯度下降法 batch gradient descent 在更新引數時使用所有的樣本來進行更新 隨機梯度下降法 stochastic gradient descent 求梯度時沒有用所有的m個樣本的資料,而是僅僅選取乙個樣本j來求梯度。小批量梯度下降法 mini batch gradient d...
隨機梯度下降法
剛剛看完史丹福大學機器學習第四講 牛頓法 也對學習過程做一次總結吧。一 誤差準則函式與隨機梯度下降 數學一點將就是,對於給定的乙個點集 x,y 找到一條曲線或者曲面,對其進行擬合之。同時稱x中的變數為特徵 feature y值為 值。如圖 乙個典型的機器學習的過程,首先給出一組輸入資料x,我們的演算...