筆記 學習率衰減

2021-09-26 16:07:21 字數 600 閱讀 2278

加快學習的乙個辦法就是學習率衰減。

假設你要使用 mini-batch 梯度下降法,mini-batch 數量不大,大概 64 或者 128 個樣本, 在迭代過程中會有噪音,下降朝向這裡的最小值,但是不會精確地收斂,所以你的演算法最後在附近擺動,並不會真正收斂,因為你用的學習率是固定值,不同的 mini-batch 中有噪音。

但要慢慢減少學習率的話,在初期的時候,學習率還較大,你的學習還是相對較快, 但隨著學習率變小,你的步伐也會變慢變小,所以最後你的曲線(綠色線)會在最小值附近的一 小塊區域裡擺動,而不是在訓練過程中,大幅度在最小值附近擺動。

所以慢慢減少學習率的本質在於,在學習初期,你能承受較大的步伐,但當開始收斂的時候, 小一些的學習率能讓你步伐小一些。

學習率衰減的兩種方法:

1.decayrate為衰減率,是你需要調整的超引數,epochnum為迭代次數,a為學習率。

2.此時學習率呈指數下降

學習率衰減

在訓練深度神經網路時,通常會隨著訓練的進行降低學習率。這可以通過使用預定義的學習率計畫或自適應學習率方法來完成。學習率表 學習率時間表旨在根據預先定義的時間表降低學習率,從而在訓練過程中調整學習率。常見的學習率時間表包括基於時間的衰減,逐步衰減和指數衰減。什麼是學習率?使用隨機梯度下降演算法訓練深度...

學習率衰減 Learning Rate Decay

以目前最主流的引數優化演算法gradient descent為例,為了讓梯度下降的效能更優,我們需要將學習率設定在乙個合適的範圍。具體來說,學習率其實就是演算法的步長,一步走多少決定了很多事情 步子大了,優化效率高,很可能一下越過最優解 相反,步子小了,優化效率低,很可能陷進乙個區域性最優解怎麼都走...

指數衰減學習率

設損失函式 loss w 1 2,令w初值是常數10.反向傳播就是求最優w,即求最小loss對應的w值 使用指數衰減學習率,在迭代初期得到較高的下降速度,可以在較小的訓練輪數下取得更有效收斂度 import tensorflow as tf learning rate base 0.1 最初學習率 ...