交叉熵是用於解決使用二次代價函式時當單個神經元接近飽和的時候對權重和bias權重學習的影響。
這個公式可以看出,當神經元飽和的時候,sigma的偏導接近於0,w的學習也會變小。但是應用交叉熵作為代價函式的話,只有當所有的神經元接近0或者1的時候才會出現這種情況。它解決了初始化w和bias時壞的w和bias帶來的影響。
交叉熵對w求偏導:
,,,,有
最後得出:
由該公式可以看出,只有大部分樣例的輸出接近期望值時,w的學習才會變緩。bias同理。
上面的討論只針對有乙個神經元的網路。
如果代價函式是交叉熵函式,那麼對應的bp1為:
bp4為
,可以看出,該公式中消除了delta對z的偏導。
但是,對於線性神經元且
,二次代價函式的誤差為
,從而有:
這說明當神經元是線性的時候,就不存在學習率下降的情況了。與此同時,這個時候神經元的誤差可以稱為是a與期望值的差。
過度擬合在神經網路中的表現是,當訓練週期太長時,對測試集的準確率一直在搖擺,而訓練集的損失(cost)在一直降低,這個時候就相當於網路在記住訓練集中的特性,而不是進行更具一般性的學習。所以我們需要知道過擬合什麼時候發生,學習降低過擬合的影響的技術。
一般來說減少過擬合的方法之一就是增加訓練集的大小,但是有時候訓練資料的獲取並不是那麼容易。
另乙個減少過擬合的方法是正則化,本章將講述正則化技術的一種權重衰減(weight decay)或l2正則化。該方法是新增乙個正則項(regularization term)到損失函式中,新增正則項的損失函式如下所示:
或
其中叫做正則化引數( regularization parameter),而n一般是訓練集的大小,注意正則項中不包含bias。
神經網路與深度學習筆記
1 代價函式 在當前小批量資料中的所有訓練樣本 2 改進神經網路的學習方法 更好的代價函式的選擇 交叉熵代價函式 四種 規範化 方法 l1和l2規範化,棄權和訓練資料的人為擴充套件,讓我們的網路在訓練集之外的資料上更好地泛化。3 在錯誤不是很好地定義時,學習過程會變得很緩慢。但在犯錯時也存在學習緩慢...
神經網路與深度學習筆記 3 2神經網路表示
隱藏層 訓練集中可以看到輸入輸出值,但看不到隱藏層值。將輸入輸出用a表示也可以,a表示啟用的意思,意味著網路不同層的值會傳遞給後一層。上述神經網路雖然包含輸入層 隱藏層 輸出層三層,但在文獻中我們稱之為雙層神經網路,其中隱藏層是第一層,輸出層是第二層。隱藏層 輸出層是有引數的,隱藏層有兩個引數w 1...
深度學習 神經網路筆記
rnn 遞迴神經網路 一 神經網路的種類 基礎神經網路 單層感知機,執行緒神經網路,bp神經網路,hopfield神經網路等 高階神經網路 玻爾茲曼機,受限玻爾茲曼機,遞迴神經網路等 深度神經網路 深度置信網路,卷積神經網路,迴圈神經網路,lstm聖經網路等 一 感知機 svm 有n個輸入資料,通過...