筆記學習率衰減

2021-09-26 16:07:21 字數 600 閱讀 2278

加快學習的乙個辦法就是學習率衰減。

假設你要使用 mini-batch 梯度下降法，mini-batch 數量不大，大概 64 或者 128 個樣本，在迭代過程中會有噪音，下降朝向這裡的最小值，但是不會精確地收斂，所以你的演算法最後在附近擺動，並不會真正收斂，因為你用的學習率是固定值，不同的 mini-batch 中有噪音。

但要慢慢減少學習率的話，在初期的時候，學習率還較大，你的學習還是相對較快，但隨著學習率變小，你的步伐也會變慢變小，所以最後你的曲線(綠色線)會在最小值附近的一小塊區域裡擺動，而不是在訓練過程中，大幅度在最小值附近擺動。

所以慢慢減少學習率的本質在於，在學習初期，你能承受較大的步伐，但當開始收斂的時候，小一些的學習率能讓你步伐小一些。

學習率衰減的兩種方法：

1.decayrate為衰減率，是你需要調整的超引數，epochnum為迭代次數，a為學習率。

2.此時學習率呈指數下降

學習率衰減

在訓練深度神經網路時，通常會隨著訓練的進行降低學習率。這可以通過使用預定義的學習率計畫或自適應學習率方法來完成。學習率表學習率時間表旨在根據預先定義的時間表降低學習率，從而在訓練過程中調整學習率。常見的學習率時間表包括基於時間的衰減，逐步衰減和指數衰減。什麼是學習率？使用隨機梯度下降演算法訓練深度...

學習率衰減 Learning Rate Decay

以目前最主流的引數優化演算法gradient descent為例，為了讓梯度下降的效能更優，我們需要將學習率設定在乙個合適的範圍。具體來說，學習率其實就是演算法的步長，一步走多少決定了很多事情步子大了，優化效率高，很可能一下越過最優解相反，步子小了，優化效率低，很可能陷進乙個區域性最優解怎麼都走...

指數衰減學習率

設損失函式 loss w 1 2,令w初值是常數10.反向傳播就是求最優w，即求最小loss對應的w值使用指數衰減學習率，在迭代初期得到較高的下降速度，可以在較小的訓練輪數下取得更有效收斂度 import tensorflow as tf learning rate base 0.1 最初學習率 ...