常用的神經網路如bp神經網路、rbf神經網路等都有三層神經元,即輸入層、隱藏層和輸出層。我們知道通過不斷的修改神經元之間的權值和偏置使網路的輸出能夠擬合所有的訓練輸入,為了量化這個目標,引入乙個代價函式:
其中w表示所有網路中權值集合,b是所有的偏置,n是訓練輸入資料的個數,a表示當輸入為x時輸出的向量。此代價函式是非負的,且值相當小,當a接近y(x)時,c(w,b)約等於0,此時網路可以很好的工作。因此梯度下降法的目標就是找到一系統能讓代價盡可能下的權重和偏置。
對於變數w,b,當我們分別改變很小的量∆w,∆b時,由微積分可得c將會有如下變化:
我們要尋找一種選擇∆w,∆b使得∆c為負,這樣每次改變w,b的值,c都在不斷變小直到接近於0。定義
則假設取∆(w,b)等於-n∇c,其中n為很小的正數稱為學習速率。則
神經網路 梯度下降
優化問題newton s method 牛頓法 least squares method最小二乘法 gradient descent梯度下降法 當 cost對w的梯度最小 斜率最小 時,誤差最小。我們從圖中可以看出,cost 誤差最小的時候正是這條 cost 曲線最低的地方,不過在藍點的 w 卻不知...
神經網路學習筆記(三) 梯度下降法
在上一張,我們學習過了lms演算法,就是利用了著名的梯度下降法,但是lms演算法只是一種特殊的實現,是均方差這個特定函式的梯度下降,這次我們來看一下梯度下降對普通函式求極值的一些應用。我們來試一下二次函式的極值點求法。首先我們建立乙個二次函式 y x 2 2 x 這個極值大家應該知道 x取 1就可以...
梯度下降法和隨機梯度下降法
批量梯度下降法 batch gradient descent 在更新引數時使用所有的樣本來進行更新 隨機梯度下降法 stochastic gradient descent 求梯度時沒有用所有的m個樣本的資料,而是僅僅選取乙個樣本j來求梯度。小批量梯度下降法 mini batch gradient d...