有關梯度下降法及其優化演算法的資源總結

2022-04-23 03:33:14 字數 657 閱讀 3556

1.梯度下降法的三種形式batch gradient desecnt、stochastic gradient desecnt、min-batch gradient desecnt及其總結

詳見:poll的筆記 寫的非常清楚,看一看就能明白

2.關於梯度下降的優化演算法

詳見:機器之心深度解讀最流行的優化演算法:梯度下降

英文版見:sebastian ruder博士寫的《an overview of gradient descent optimization algorithms》

3. 關於sgd+momentum中兩種形式的理解,其實是一回事

momentum動量,模擬物體運動的慣性,當進行引數更新時,sgd+momentum在一定程度上保留速度的方向,同時結合當前batch的梯度微調,確定最終需要更新方向。這樣做可以更穩定,學習地更快,並且還有一定擺脫區域性最優的能力。

公式1:

v=μv-αδl(1)

w=w+v(2)

公式2:

v=μv+αδl(3)

w=w-v(4)

因為從初始時刻算起,初始化v=0,所以兩個公式中的v不停的累加,公式1中(1)v累加的是負值,公式2中(3)v累加的是正值。如論如何,在進行引數w的更新時,肯定是要減去乙個正數,即公式(4),也就是相當於加上乙個負數,也即公式(2)。

梯度下降法及其優化

1 梯度下降 2 面對的主要困難 3 分類 隨機梯度下降法 sgd 每次只使用乙個樣本 小批量隨機梯度下降法 mini batch sgd 使用小批量樣本 4 普通的小批量sgd 以下簡稱為sgd 的困難 其他困難 1 為什麼不使用牛頓法?2 動量法 momentum 適用於隧道型曲面 乙個方向很陡...

梯度下降法及其改進演算法

introduce 今天會說兩個問題,第一,建議大腳多看看大牛的部落格,可以漲姿勢。例如 1 側重於語言程式設計和應用的廖雪峰 2 側重於高大上演算法和開源庫介紹的莫煩 第二,加深對機器學習演算法的理解。個人理解 經典機器學習演算法,例如svm,邏輯回歸,決策樹,樸素貝葉斯,神經網路,adaboos...

最優化 梯度下降法

最優化問題就是求解函式極值的問題,包括極大值和極小值,幾乎所有機器學習演算法歸根到底都是在求解最優化問題。在高等數學 微積分中有求極值統一的思路 找函式導數等於0的點,只要函式可導我們就可以用這種方法。在機器學習中我們一般求函式的極小值,若求極大值我們只需要整體加負號。有些時候我們會對優化變數x有約...