深度學習調參技巧

2021-07-13 12:58:38 字數 627 閱讀 2341

模型引數的一般設定:

epoch迭代幾十到幾百次。

mini batch size從幾十到幾百,為了更好的利用硬體加速,通常取8的倍數,例如128,256。

learning rate取0.1(資料集越大,模型越複雜,應取值越小),weight decay取0.005,momentum取0.9。dropout加relu。

weight用高斯分布初始化,bias全初始化為0。

最後,輸入特徵和**目標都做好歸一化。

超引數:

用 網格搜尋(grid search),驗證集去訓練,通常用1 10 0.1 等這些數去尋找乙個大致範圍,如需更精確,可在找到範圍後,更細粒度的調整。

防止過擬合:

l1,l2正則化 ,資料增廣,dropout

參考:深度學習大牛 bengio 的*****:《dropout:  a ****** way to prevent neural networks from overfitting》在附錄處給了一些關於dropout的一些建議

當然,還有yoshua bengio 《practical recommendations for gradient-based training of deep architectures》總結了很多tricks.

深度學習調參技巧

1 準備資料 務必保證有大量 高質量並且帶有乾淨標籤的資料,沒有如此的資料,學習是不可能的 2 預處理 這個不多說,就是0均值和1方差化 3 minibatch 建議值128,1最好,但是效率不高,但是千萬不要用過大的數值,否則很容易過擬合 4 梯度歸一化 其實就是計算出來梯度之後,要除以minib...

調參煉丹 深度學習訓練的小技巧,調參經驗。

經常會被問到你用深度學習訓練模型時怎麼樣改善你的結果呢?然後每次都懵逼了,一是自己懂的不多,二是實驗的不多,三是記性不行忘記了。所以寫這篇部落格,記錄下別人以及自己的一些經驗。ilya sutskever hinton的學生 講述了有關深度學習的見解及實用建議 獲取資料 確保要有高質量的輸入 輸出資...

深度學習調參策略(二)

超引數 hyper parameter 是困擾神經網路訓練的問題之一,因為這些引數不可通過常規方法學習獲得。神經網路經典五大超引數 學習率 leraning rate 權值初始化 weight initialization 網路層數 layers 單層神經元數 units 正則懲罰項 regular...