神經網路與深度學習筆記 梯度消失問題

2021-10-22 23:46:12 字數 796 閱讀 6183

神經網路與深度學習筆記系列一共有五個專題,分別是

第一章使用神經網路識別手寫數字——梯度下降演算法是什麼。主要介紹了神經網路的基礎例如感知器啟用函式等概念,最主要介紹了梯度下降演算法。

第二章反向傳播演算法如何工作——反向傳播演算法原理。主要介紹了反向傳播演算法的工作原理。

第三章改變神經網路的學習方法——代價函式,規範化,過擬合。主要介紹了不同的代價函式,以及規範化等對傳統代價函式的改造。

第四章深度神經網路為何難以訓練——梯度消失和**。主要介紹了梯度消失問題和梯度**問題。

對於影象識別問題,深度神經網在感官上是這樣工作的,第一層神經元能夠識別邊,角等初等問題,第二層神經網路能夠學習圖形例如三角形正方形等問題,第三層網路能夠識別更加深度的問題,層次越深的網路能夠學習的問題的複雜性越高。

梯度消失(vanishing gradient problem)表現為後面的層學習得比前面的層學習得快,想象一下,因為梯度往前傳播的過程中,梯度的值越來越小。

梯度**(exploding gradient problem)表現為後面的層學習得不如前面的層學習得快。

因為前面層的梯度來自後面層上項的乘積。唯一讓所有層都接近相同的學習速度的方式是所有這些項的乘積都能得到一種平衡。

深度神經網路目前面臨的最主要最根本的問題就是梯度不穩定的問題,包括梯度消失和梯度**的問題。當然目前還有一些其他的問題。人們發現sigmoid函式會導致最終層上的啟用函式在訓練中匯聚在0,導致了學習緩慢,可以使用其他的啟用函式。總結一下,啟用函式的選擇,權重的初始化,甚至是學習演算法的實現方式都扮演重要的角色。

神經網路與深度學習(5) 梯度消失問題

本文總結自 neural networks and deep learning 第5章的內容。隨著隱藏層數目的增加,分類準確率反而下降了。為什麼?先看一組試驗資料,當神經網路在訓練過程中,隨epoch增加時各隱藏層的學習率變化。兩個隱藏層 784,30,30,10 三個隱藏層 784,30,30,3...

神經網路與深度學習筆記

1 代價函式 在當前小批量資料中的所有訓練樣本 2 改進神經網路的學習方法 更好的代價函式的選擇 交叉熵代價函式 四種 規範化 方法 l1和l2規範化,棄權和訓練資料的人為擴充套件,讓我們的網路在訓練集之外的資料上更好地泛化。3 在錯誤不是很好地定義時,學習過程會變得很緩慢。但在犯錯時也存在學習緩慢...

神經網路與深度學習筆記 3 2神經網路表示

隱藏層 訓練集中可以看到輸入輸出值,但看不到隱藏層值。將輸入輸出用a表示也可以,a表示啟用的意思,意味著網路不同層的值會傳遞給後一層。上述神經網路雖然包含輸入層 隱藏層 輸出層三層,但在文獻中我們稱之為雙層神經網路,其中隱藏層是第一層,輸出層是第二層。隱藏層 輸出層是有引數的,隱藏層有兩個引數w 1...