(1)(批量)梯度下降
使用整個訓練集的優化演算法被稱為批量(batch)梯度下降演算法。術語「批量梯度下降」指使用全部訓練集,而術語「批量」單獨出現時指一組樣本。
(2)隨機梯度下降
每次只使用單個樣本的優化演算法被稱為隨機(stochastic)梯度下降演算法。
(3)小批量梯度下降
大多數用於深度學習的演算法介於批量梯度下降演算法和隨機梯度下降演算法之間,小批量梯度下降演算法(minibatch gradient descent)使用乙個以上,而又不是全部的訓練樣本。
(4)不同梯度下降演算法的區別:
(批量)梯度下降:在梯度下降中,對於θ的更新,所有的樣本都有貢獻,都參與調整θ,其計算得到的是乙個標準梯度,因而理論上來說一次更新的幅度是比較大的。如果樣本不多的情況下,當然是這樣收斂的速度會更快啦~
隨機梯度下降:可以看到多了隨機兩個字,隨機也就是說我用樣本中的乙個例子來近似我所有的樣本,來調整θ,因而隨機梯度下降是會帶來一定的問題,因為計算得到的並不是準確的乙個梯度,容易陷入到區域性最優解中。
小批量梯度下降:其實小批量的梯度下降就是一種折中的方法,它用了一些小樣本來近似全部的,其本質就是我1個指不定不太準,那我用個30個50個樣本那比隨機的要準不少了吧,而且小批量的話還是非常可以反映樣本的乙個分布情況。
reference:
機器學習之梯度下降法 梯度下降法分析
梯度下降法的基本思想是函式沿著其梯度方向增加最快,反之,沿著其梯度反方向減小最快。在前面的線性回歸和邏輯回歸中,都採用了梯度下降法來求解。梯度下降的迭代公式為 j j j j 在回歸演算法的實驗中,梯度下降的步長 為0.01,當時也指出了該步長是通過多次時間找到的,且換一組資料後,演算法可能不收斂。...
機器學習之梯度下降法
如圖,對於函式f x,y 函式的增量與pp 兩點距離之比在p 沿l趨於p時,則為函式在點p沿l方向的方向導數。記為 f l lim 0f x x,y y f x,y 其中 x 2 y 2 方向導數為函式f沿某方向的變化速率。而且有如下定理 f l f xc os f y sin 梯度是乙個向量,它的...
機器學習 梯度下降法
梯度下降法,一般用來求解線性回歸方程,我的理解是根據一組形如 特徵1,特徵2.結果 的資料來找到這些對應的特徵和結果之間的聯絡 例如,我們利用一組 銷量的資料判斷乙個物品的銷量和 之間的關係 我們要求的線性回歸方程可以表示為 銷量 引數 實質上其實就是找到對應的 引數 而當影響乙個結果的特徵不只有乙...