我們之前將了隨機梯度下降和動量梯度下降,不過,還有很多其他的優化演算法可以使得模型穩定。
先來回顧隨機梯度下降和動量梯度下降
隨機梯度下降有兩個問題:區域性極值問題和saddle point 問題,動量梯度下降可以一定程度上解決這兩個問題
因為他可以使用之前積累的梯度方向。
不過這兩個方法還有其他的兩個問題:
針對這兩個問題,還有哪些其他的演算法呢?
adagrad
學習率是逐漸衰減的,用以往梯度的平方和作為學習率的分母,從而使得整個學習率隨著訓練次數的增加而越來越小,這樣也擺脫了學習率對初始值的依賴
grad_squared = 0
while true:
dx = compute_gradient(x)
grad_squared += dx ** 2
# + 1e-7 加乙個比較小的值以防止初始值為0
x -= learning_rate * dx / (np.sqrt(grad_squared) + 1e-7)
複製**
* 優點
* 前期, regularizer較小,放大梯度
* 後期, regularizer較大,縮小梯度
* 梯度隨訓練次數降低(可以防止一直跳過極值區域)
* 每個分量有不同的學習率
* 缺點
* 學習率設定太大,導致regularizer影響過於敏感
* 後期,regularizer累積值太大,提前結束訓練
複製**
rmsprop
grad_squared = 0
while true:
dx = compute_gradient(x)
# 平方和變成了平均值
grad_squared += decay_rate * grad_squared + (1 - decay_rate) * (dx ** 2)
x -= learning_rate * dx / (np.sqrt(grad_squared) + 1e-7)
複製**
adam
adam結合了momentum(動量梯度下降)(學習穩定)和adagrad(可以隨著訓練次數和維度的變化而變化)的優點
[上傳失敗...(image-9a19d6-1538918434302)]
校準的意義在於通過這種方式使得開始的時候first_moment和second_moent變的相對大一些來加速訓練
《1。卷積神經網路》
1.簡述卷積的基本操作,並分析其與全連線層的區別 答 具有區域性連線和權值共享的特點。卷積操作能夠在輸出資料中大致保持輸入資料的結構資訊 2.在卷積神經網路中,如何計算各層的感受野大小?答 3.卷積層的輸出尺寸 參數量和計算量 答 輸出尺寸 1.簡述分組卷積及其應用場景 答 分組卷積就是將輸入通道和...
卷積神經網路 1 1 卷積核
卷積神經網路中卷積核的作用是提取影象更高維的特徵,乙個卷積核代表一種特徵提取方式,對應產生乙個特徵圖,卷積核的尺寸對應感受野的大小。經典的卷積示意圖如下 5 5的影象使用3 3的卷積核進行卷積,結果產生3 3 5 3 1 的特徵影象。卷積核的大小一般是 2n 1 2n 1 的奇數乘奇數大小 n 1 ...
卷積神經網路 1 1 卷積核
卷積神經網路中卷積核的作用是提取影象更高維的特徵,乙個卷積核代表一種特徵提取方式,對應產生乙個特徵圖,卷積核的尺寸對應感受野的大小。經典的卷積示意圖如下 5 5的影象使用3 3的卷積核進行卷積,結果產生3 3 5 3 1 的特徵影象。卷積核的大小一般是 2n 1 2n 1 的奇數乘奇數大小 n 1 ...