1. 特徵:沿負梯度方向迭代更新下一次的搜尋方向
2. 用於:優化問題中逼近極值點
3. 基本形式:$\theta'_j=\theta_j-\alpha\cdot\frac}$
4. 步長 $\alpha$(學習速率):$\alpha$太小,收斂慢;$\alpha$太大,可能不收斂。
5. 缺點:
①靠近極值點收斂速度減慢(導數減小)
②可能之字形下降
③總體收斂速度慢(一階線性)
6. 變種:
①bgd批量梯度下降(batch gradient descent):原始形式,每次用所有樣本求導更新。
②sgd隨機梯度下降(stachastic gradient descent):每次隨機選乙個樣本來更新,計算量小,收斂快,但準確率下降,並且不易於並行實現。
③mbgd小批量梯度下降(mini-batch gradient descent):折中方案,每次隨機選b個樣本進行更新。
7. 加速:feature scaling:將feature各維度標準化,即mean normalization:$x=\frac}$
梯度下降 隨機梯度下降 批梯度下降
下面的h x 是要擬合的函式,j 損失函式,theta是引數,要迭代求解的值,theta求解出來了那最終要擬合的函式h 就出來了。其中m是訓練集的記錄條數,j是引數的個數。梯度下降法流程 1 先對 隨機賦值,可以是乙個全零的向量。2 改變 的值,使j 按梯度下降的方向減少。以上式為例 1 對於我們的...
梯度下降 隨機梯度下降和批量梯度下降
對比梯度下降和隨機梯度下降和批量梯度下降 之前看的知識比較零散,沒有乙個系統的解釋說明,看了一些網上的博主的分析,總結了一下自己的理解。例子這裡我參照其他博主的例子做了一些修改,首先是梯度下降 coding utf 8 import random this is a sample to simula...
stanford 梯度 梯度下降,隨機梯度下降
一 梯度gradient 在標量場f中的一點處存在乙個向量g,該向量方向為f在該點處變化率最大的方向,其模也等於這個最大變化率的數值,則向量g稱為標量場f的梯度。在向量微積分中,標量場的梯度是乙個向量場。標量場中某一點上的梯度指向標量場增長最快的方向,梯度的長度是這個最大的變化率。更嚴格的說,從歐氏...