神經網路與機器學習 筆記 改善反向傳播的效能試探法

2021-09-24 18:19:55 字數 1544 閱讀 7688

隨機和批量方式更新

反向傳播學習的隨機(序列)方式(涉及乙個模式接乙個模式的更新)要比批量方式

計算快。特別是當新聯資料集很大且高度冗餘時,更是如此。(批量學習再高度冗餘的時候jacobi矩陣會很麻煩)

最大資訊內容

作為乙個基本的規則,對呈現給反向傳播演算法的每乙個訓練樣本的挑選必須建立在其資訊內容對解決問題有很大可能的基礎上。達到這個目標的兩種方法是:

使用訓練誤差最大的樣本。

使用的樣本要與以前使用的有區別。

在模式分類的任務中使用序列反向傳播學習,經常使用的乙個簡單技巧是將樣本的每個回合呈現給多層感知器的順序隨機化(即弄亂)。理想情況下,隨機化可以確保乙個回合中的相繼的樣本很少屬於同一類。

啟用函式

建議選擇奇函式的sigmoid啟用函式即

f(-v) = - f(v)

如下的雙曲正切函式滿足這個條件(logistic函式不滿足)

f(v) = a tanh (bv)       其中a和b的合適值:a=1.7159   b=2/3

再遠點啟用函式的傾斜度(即有效增益)接近於1

f(v)的二階導數在v=1時達到最大。

4.目標值。

在sigmoid啟用函式的範圍內選擇目標值(期望響應)是很重要的。更具體來說,多層感知器輸出層的神經元j的期望響應dj必須與sigmoid啟用函式的極限值偏離某個值,具體取決於極限值是正或負。否則反向傳播演算法會使網路的自由引數趨向於無窮大,驅使隱藏神經元達到飽和從而減慢學習過程。

輸入的標準化。每乙個輸入標量都需要預處理,使得它關於整個訓練集求平均的均值接近0,或者與標準偏差相比是較小的。位評價這個規則的實際意義,我們考慮輸入恆正的極端情況。在這種情況下,第一隱藏層的乙個神經元的所有突觸權值只能同時增加或同時減少。所以,如果這個神經元權值向量改變方向,則它的誤差曲面的路徑變成鋸齒形的,這會使收斂速度變慢,因此應該避免。兩個步驟

訓練集包含的輸入變數應該是不相關的;

區相關後的輸入變數應調整其長度使得它們的協方差近似相等,因此可以保證網路中的不同突觸權值以大約相等的速度進行學習。

初始化。使得神經元誘導區域性域的標準偏差位於它的sigmoid啟用函式的線性部分和飽和部分的過渡區域。對於乙個均勻分布,它需要其均值為0而方差將與神經元的突觸鏈結的數目成反比,從而這個分布來選擇突觸權值的值。

從提示中學習。從一組未知的訓練例子中學習意味著處理未知的輸入-輸出對映函式,事實上,學習過程利用函式例子鎖包含的資訊來推斷它的逼近實現。從例子中學習的過程可以推廣為包括從提示中學習,這可以通過在學習過程中加入函式的先驗知識來實現。這些知識包括不變性、對稱性或關於函式的其他知識,它們可以用來加速實現函式逼近的搜尋,而且更重要的是,會提高最後估計的質量。

學習率。多層感知器的所有神經元理論上應以同一速率進行學習。網路最後一層的區域性梯度與通常比別的層大。因此,最後一層的學習率引數應設的比別的層小。輸入較多的神經元的學習率引數應比輸入較少的神經元小。對於乙個給定的神經元,其學習率應與該審刑院的突觸鏈結的平方根成反比。

機器學習 反向傳播神經網路推導

簡單的反向傳播神經網路可以說就是將基本單元如感知器,組成層級結構,劃分出輸入層 隱含層 輸出層 不同層之間通過連線來形成耦合,從而組成乙個有功用的網狀演算法結構。感知器可以通過迭代計算來逼近想獲取的結果,迭代過程中感知器不斷和計算結果反饋,較為常用的迭代計算方法有梯度下降法。當感知器組成網路之後,每...

《機器學習》筆記 神經網路

輸入 乙個實數值向量 x1,xn 輸出 o x sgn w x 其中 向量w w0,w1,wn 是要求的引數,向量x x0,x1,xn x0 1 是輸入 函式o x1,xn 實際上是求 x1,xn 的線性組合是否大於閾值 w0,從幾何上看即是在決策面的哪一側 假設空間 h 學習乙個感知器意味著從空間...

機器學習10 神經網路反向傳播演算法

一,神經網路的代價函式 首先引入一些便於稍後討論的新標記方法 假設神經網路的訓練樣本有 m 個,每個包含一組輸入 x 和一組輸出訊號 y,l 表示神經網路層數,sl 表示每層的 neuron 個數 sl 表示輸出層神經元個數 sl 代表最後一層中處理單元的個數。將神經網路的分類定義為兩種情況 二類分...