梯度下降在深度學習中很少被直接使用,但理解梯度的意義以及沿著梯度反方向更新自變數可能降低目標函式值的原因是學習後續優化演算法的基礎。隨後,將引出隨機梯度下降(stochastic gradient descent)。
以簡單的一維梯度下降為例,解釋梯度下降演算法可能降低目標函式值的原因。假設連續可導的函式f:r
→r'>f:ℝ→ℝ
的輸入和輸出都是標量。給定絕對值足夠小的數ϵ
'>
ϵ,根據泰勒展開公式,f:
r→r'>ϵ
'>得到以下的近似:
梯度下降演算法中的正數η
'>η
通常叫作學習率。這是乙個超引數,需要人工設定。如果使用過小的學習率,會導致x
'>x
更新緩慢從而需要更多的迭代才能得到較好的解。
如果使用過大的學習率,|ηf
′(x)
|'>∣ηf′(x)∣
可能會過大從而使前面提到的一階泰勒展開公式不再成立:這時我們無法保證迭代x
'>x
會降低f(x
)'>f(x)
的值。
機器學習之梯度下降
梯度下降不是乙個機器學習演算法,而是一種基於搜尋的最優化方法。梯度下降 gradient descent,gd 優化演算法,其作用是用來對原始模型的損失函式進行優化,以便尋找到最優的引數,使得損失函式的值最小。要找到使損失函式最小化的引數,如果純粹靠試錯搜尋,比如隨機選擇1000個值,依次作為某個引...
機器學習之梯度下降法 梯度下降法分析
梯度下降法的基本思想是函式沿著其梯度方向增加最快,反之,沿著其梯度反方向減小最快。在前面的線性回歸和邏輯回歸中,都採用了梯度下降法來求解。梯度下降的迭代公式為 j j j j 在回歸演算法的實驗中,梯度下降的步長 為0.01,當時也指出了該步長是通過多次時間找到的,且換一組資料後,演算法可能不收斂。...
機器學習之梯度下降法
1 批量 梯度下降 使用整個訓練集的優化演算法被稱為批量 batch 梯度下降演算法。術語 批量梯度下降 指使用全部訓練集,而術語 批量 單獨出現時指一組樣本。2 隨機梯度下降 每次只使用單個樣本的優化演算法被稱為隨機 stochastic 梯度下降演算法。3 小批量梯度下降 大多數用於深度學習的演...