目錄
1.學習率的作用
2.學習率衰減常用引數有哪些
3.常見衰減函式
3.1分段常數衰減
3.2指數衰減
3.3自然指數衰減
3.4多項式衰減
3.5余弦衰減
梯度下降法是乙個廣泛被用來最小化模型誤差的引數優化演算法。梯度下降法通過多次迭代,並在每一步中最小化成本函式(cost 來估計模型的引數。學習率 (learning rate),在迭代過程中會控制模型的學習進度。
在梯度下降法中,都是給定的統一的學習率,整個優化過程中都以確定的步長進行更新, 在迭代優化的前期中,學習率較大,則前進的步長就會較長,這時便能以較快的速度進行梯度下降,而在迭代優化的後期,逐步減小學習率的值,減小步長,這樣將有助於演算法的收斂,更容易接近最優解。故而如何對學習率的更新成為了研究者的關注點。 在模型優化中,常用到的幾種學習率衰減方法有:分段常數衰減、多項式衰減、指數衰減、自然指數衰減、余弦衰減、線性余弦衰減、雜訊線性余弦衰減
引數名稱
引數說明
learning_rate
初始學習率
global_step
用於衰減計算的全域性步數,非負,用於逐步計算衰減指數
decay_steps
衰減步數,必須是正值,決定衰減週期
decay_rate
衰減率end_learning_rate
最低的最終學習率
cycle
學習率下降後是否重新上公升
alpha
最小學習率
num_periods
衰減余弦部分的週期數
initial_variance
雜訊的初始方差
variance_decay
衰減雜訊的方差
綠色的為學習率隨 訓練次數的指數衰減方式,紅色的即為分段常數衰減,它在一定的訓練區間內保持學習率不變。
分段常數衰減、指數衰減、自然指數衰減三種方式的對比圖,紅色的即為分段常數衰減圖,階梯型曲線。藍色線為指數衰減圖,綠色即為自然指數衰減圖,很明可以看到自然指數衰減方式下的學習率衰減程度要大於一般指數衰減方式,有助於更快的收斂
紅色線代表學習率降低至最低後,一直保持學習率不變進行更新,綠色線代表學習率衰減到最低後,又會再次迴圈往復的公升高降低。
紅色即為標準的余弦衰減曲線,學習率從初始值下降到最低學習率後保持不變。藍色的線是線性余弦衰減方式曲線,它是學習率從初始學習率以線性的方式下降到最低學習率值。綠色雜訊線性余弦衰減方式。
學習率衰減
在訓練深度神經網路時,通常會隨著訓練的進行降低學習率。這可以通過使用預定義的學習率計畫或自適應學習率方法來完成。學習率表 學習率時間表旨在根據預先定義的時間表降低學習率,從而在訓練過程中調整學習率。常見的學習率時間表包括基於時間的衰減,逐步衰減和指數衰減。什麼是學習率?使用隨機梯度下降演算法訓練深度...
學習率衰減 Learning Rate Decay
以目前最主流的引數優化演算法gradient descent為例,為了讓梯度下降的效能更優,我們需要將學習率設定在乙個合適的範圍。具體來說,學習率其實就是演算法的步長,一步走多少決定了很多事情 步子大了,優化效率高,很可能一下越過最優解 相反,步子小了,優化效率低,很可能陷進乙個區域性最優解怎麼都走...
筆記 學習率衰減
加快學習的乙個辦法就是學習率衰減。假設你要使用 mini batch 梯度下降法,mini batch 數量不大,大概 64 或者 128 個樣本,在迭代過程中會有噪音,下降朝向這裡的最小值,但是不會精確地收斂,所以你的演算法最後在附近擺動,並不會真正收斂,因為你用的學習率是固定值,不同的 mini...