有關梯度下降法及其優化演算法的資源總結

1.梯度下降法的三種形式batch gradient desecnt、stochastic gradient desecnt、min-batch gradient desecnt及其總結

詳見：poll的筆記寫的非常清楚，看一看就能明白

2.關於梯度下降的優化演算法

詳見：機器之心深度解讀最流行的優化演算法：梯度下降

英文版見：sebastian ruder博士寫的《an overview of gradient descent optimization algorithms》

3. 關於sgd+momentum中兩種形式的理解，其實是一回事

momentum動量，模擬物體運動的慣性，當進行引數更新時，sgd+momentum在一定程度上保留速度的方向，同時結合當前batch的梯度微調，確定最終需要更新方向。這樣做可以更穩定，學習地更快，並且還有一定擺脫區域性最優的能力。

公式1:

v=μv-αδl（1）

w=w+v（2）

公式2：

v=μv+αδl（3）

w=w-v（4）

因為從初始時刻算起，初始化v=0,所以兩個公式中的v不停的累加，公式1中（1）v累加的是負值，公式2中（3）v累加的是正值。如論如何，在進行引數w的更新時，肯定是要減去乙個正數,即公式（4），也就是相當於加上乙個負數，也即公式（2）。