1.梯度下降法的三種形式batch gradient desecnt、stochastic gradient desecnt、min-batch gradient desecnt及其總結
詳見:poll的筆記 寫的非常清楚,看一看就能明白
2.關於梯度下降的優化演算法
詳見:機器之心深度解讀最流行的優化演算法:梯度下降
英文版見:sebastian ruder博士寫的《an overview of gradient descent optimization algorithms》
3. 關於sgd+momentum中兩種形式的理解,其實是一回事
momentum動量,模擬物體運動的慣性,當進行引數更新時,sgd+momentum在一定程度上保留速度的方向,同時結合當前batch的梯度微調,確定最終需要更新方向。這樣做可以更穩定,學習地更快,並且還有一定擺脫區域性最優的能力。
公式1:
v=μv-αδl(1)
w=w+v(2)
公式2:
v=μv+αδl(3)
w=w-v(4)
因為從初始時刻算起,初始化v=0,所以兩個公式中的v不停的累加,公式1中(1)v累加的是負值,公式2中(3)v累加的是正值。如論如何,在進行引數w的更新時,肯定是要減去乙個正數,即公式(4),也就是相當於加上乙個負數,也即公式(2)。
梯度下降法及其優化
1 梯度下降 2 面對的主要困難 3 分類 隨機梯度下降法 sgd 每次只使用乙個樣本 小批量隨機梯度下降法 mini batch sgd 使用小批量樣本 4 普通的小批量sgd 以下簡稱為sgd 的困難 其他困難 1 為什麼不使用牛頓法?2 動量法 momentum 適用於隧道型曲面 乙個方向很陡...
梯度下降法及其改進演算法
introduce 今天會說兩個問題,第一,建議大腳多看看大牛的部落格,可以漲姿勢。例如 1 側重於語言程式設計和應用的廖雪峰 2 側重於高大上演算法和開源庫介紹的莫煩 第二,加深對機器學習演算法的理解。個人理解 經典機器學習演算法,例如svm,邏輯回歸,決策樹,樸素貝葉斯,神經網路,adaboos...
最優化 梯度下降法
最優化問題就是求解函式極值的問題,包括極大值和極小值,幾乎所有機器學習演算法歸根到底都是在求解最優化問題。在高等數學 微積分中有求極值統一的思路 找函式導數等於0的點,只要函式可導我們就可以用這種方法。在機器學習中我們一般求函式的極小值,若求極大值我們只需要整體加負號。有些時候我們會對優化變數x有約...