stanford 梯度 梯度下降,隨機梯度下降

2021-09-06 07:25:29 字數 1041 閱讀 5034

一、梯度gradient

在標量場f中的一點處存在乙個向量g,該向量方向為f在該點處變化率最大的方向,其模也等於這個最大變化率的數值,則向量g稱為標量場f的梯度。

在向量微積分中,標量場的梯度是乙個向量場。

標量場中某一點上的梯度指向標量場增長最快的方向,梯度的長度是這個最大的變化率。

更嚴格的說,從歐氏空間rn到r的函式的梯度是在rn某一點最佳的線性近似。在這個意義上,梯度是雅戈比矩陣的乙個特殊情況。

在單變數的實值函式的情況,梯度只是導數,或者,對於乙個線性函式,也就是線的斜率。

梯度一詞有時用於斜度,也就是乙個曲面沿著給定方向的傾斜程度。

乙個標量函式

二、梯度下降法

%e4%b8%8b%e9%99%8d%e6%b3%95

梯度下降法,基於這樣的觀察:

如果實值函式

對於考慮到這一點,我們可以從函式

因此可得到

如果順利的話序列

梯度下降法的缺點是:

三、隨機梯度下降法stochastic gradient descent,也叫增量梯度下降

由於梯度下降法收斂速度慢,而隨機梯度下降法會快很多

–根據某個單獨樣例的誤差增量計算權值更新,得到近似的梯度下降搜尋(隨機取乙個樣例)

–可以看作為每個單獨的訓練樣例定義不同的誤差函式

–在迭代所有訓練樣例時,這些權值更新的序列給出了對於原來誤差函式的梯度下降的乙個合理近似

–通過使下降速率的值足夠小,可以使隨機梯度下降以任意程度接近於真實梯度下降

•標準梯度下降和隨機梯度下降之間的關鍵區別

–標準梯度下降是在權值更新前對所有樣例彙總誤差,而隨機梯度下降的權值是通過考查某個訓練樣例來更新的

–在標準梯度下降中,權值更新的每一步對多個樣例求和,需要更多的計算

–標準梯度下降,由於使用真正的梯度,標準梯度下降對於每一次權值更新經常使用比隨機梯度下降大的步長

–如果標準誤差曲面有多個區域性極小值,隨機梯度下降有時可能避免陷入這些區域性極小值中

梯度下降 隨機梯度下降 批梯度下降

下面的h x 是要擬合的函式,j 損失函式,theta是引數,要迭代求解的值,theta求解出來了那最終要擬合的函式h 就出來了。其中m是訓練集的記錄條數,j是引數的個數。梯度下降法流程 1 先對 隨機賦值,可以是乙個全零的向量。2 改變 的值,使j 按梯度下降的方向減少。以上式為例 1 對於我們的...

梯度下降 隨機梯度下降和批量梯度下降

對比梯度下降和隨機梯度下降和批量梯度下降 之前看的知識比較零散,沒有乙個系統的解釋說明,看了一些網上的博主的分析,總結了一下自己的理解。例子這裡我參照其他博主的例子做了一些修改,首先是梯度下降 coding utf 8 import random this is a sample to simula...

梯度下降演算法 梯度下降演算法為何叫梯度下降?

首先,我們知道乙個演算法的名字可以很好地去解釋乙個演算法,那麼梯度下降演算法是什麼呢?很明顯的,就是用梯度這個工具來解決問題的一種演算法。解決什麼問題呢?如何在乙個函式曲面的某一點,找到乙個函式值變化最大的方向。比如 我們站在山上的某一點,我們想要以最快的速度上山,但是我們的步子大小是一定的,那麼最...