第六講 訓練神經網路上 課時15 批量歸一化

2021-08-19 18:42:19 字數 1170 閱讀 8632

batch norm

「you want unit gaussian activations? just make them so」

卷積神經網路由於需要保留空間資訊,對所有batch使用同樣的均值和方差。

普通全連線網路各個batch使用各自的mean和variance

gamma和beta是為了新增雜訊,具有正則化的作用,它們是學習得到的引數。

gamma和bata使得更flexible,比如tanh中,需要控制不進入saturated區域

gamma和beta取值如下時,可以使得batch norm等於沒有發生。即identity function

實際訓練種,不會得到identity function

batch norm使用固定的均值和方差(訓練時,各個batch的平均)

hyper parameter時,coarse to fine  只迭代幾個epoch即可選取超引數。

2023年**認為random search優於 grid search

本課程推薦random search (log space)

記錄引數更新比例,以決定要不要繼續更新

神經網路訓練

學習了bp神經網路演算法,剛開始最終要的一點不明白的就是前一層和後一層 這裡指的只有三層,輸入層,隱藏層,輸出層 的權重,其實神經網路演算法中,前一層的每乙個節點和後一層的每乙個節點都有連線權重,初始權重是隨機的。而更新權重是通過輸出層的值來反向更新的。基本過程如下 1.輸入第乙個訓練樣本 對應的就...

訓練神經網路失敗的原因(上)

根據原文講述 原因大致如下 神經網路中對資料進行歸一化是不可忽略的步驟,網路能不能正常工作,還得看你有沒有做歸一化。這個步驟是非常重要的,深度學習領域的人都很清楚,因此 中也很少有提及到。但是對於初學者來說,很容易在這裡栽跟頭,比如說我。一般來講,歸一化就是減去資料平均值除以標準差,通常是針對每個輸...

神經網路訓練技巧

1 學習速率。首先設學習速率為乙個較大的值,確保training cost在不斷下降。當accuracyy在n個epoch內不再增加時,使得學習速率減小一半。重複迭代,直到學習速率變成原來的1 1024。2 學習速率要根據訓練cost調。但是網路層數和神經元數目,mini batch size要根據...