方法:
一、更多的優化演算法
二、啟用函式
三、網路的初始化
四、批歸一化
五、資料增強
六、採用更多的調參技巧
1 隨機梯度下降
問題:1.區域性極值
2.鞍點saddle point問題
(動量梯度下降可以在一定程度上緩解以上的問題)
此外的問題是:
1.受到學習率的影響:導致梯度**不收斂
2.每乙個維度的學習率一樣,阿爾發值是全域性的,而不是個性化定義的,在稀疏上比較明顯
解決方法:
adagrad演算法:讓梯度去做衰減
1.調整學習率::使梯度有個累積值,將以往的梯度進行平方和,並且作為學習率的分母,使得學習率隨著訓練次數的增加而越來越小
特點:1.前期。分母regularize較小,效果:放大梯度
2.後期。分母較大,縮小梯度
3.梯度隨著訓練次數降低
4.每個分量有不同的學習率
缺點:1.學習率過大,導致分母影響過於敏感
2.後期分母累積值太大,提前結束訓練
解決採用adamgrad的變種:rmsprop
有累積平方梯度變為平方梯度
解決了後期提前結束的問題
在平常訓練中,一般採用adam
使用learning_rate 來做引數
adam設定如下比較有效:
貝塔beta1=0.9
beta2=0.999
learing_rate = 1e-3 or 5e-4
神經網路調參
神經網路的一些調參方法小結 1 網格搜尋法 網格搜尋就是將多個引數進行笛卡爾乘積後逐個試驗,很費時間。sklearn庫有gridsearchcv函式,結合了交叉驗證,我還沒在神經網路上應用過。2 逐個調參 用列舉的方法逐個引數調優,乙個引數取最佳值後固定住再進行下乙個引數調優,比網格搜尋快一些。不過...
關於神經網路的調參經驗技巧和調參順序
二 調參順序 三 一句總結 一 模型方面基本上都做得非常好了,因此真正需要調的引數其實並不多了,或者說調很多引數實際帶來的提公升都非常小了。二 在訓練乙個深度學習模型的過程中,超引數選擇什麼最優,這是乙個基於實驗和經驗的過程。需要不停的嘗試,直到找到合適的引數值。調參就是trial and erro...
4 1 卷積神經網路調參 adagrad adam
我們之前將了隨機梯度下降和動量梯度下降,不過,還有很多其他的優化演算法可以使得模型穩定。先來回顧隨機梯度下降和動量梯度下降 隨機梯度下降有兩個問題 區域性極值問題和saddle point 問題,動量梯度下降可以一定程度上解決這兩個問題 因為他可以使用之前積累的梯度方向。不過這兩個方法還有其他的兩個...