目的:
快速 有效地擬合。
手段:
隨機批處理、學習率、批規範化、模型優化演算法、遷移學習。
隨機批處理,mini-batch,一種在模型每輪 (epoch) 訓練進行前將訓練資料集隨機打亂 (shuffle)的 訓練機制。
可以防止被模型猜到 「出樣本順序」。
作用:
防過擬合。
學習率,learning rate,控制模型的學習進度。
在訓練過程中,根據訓練輪數,合理設定動態變化的學習率:
note:
如果是遷移學習,由於模型已在原始資料上收斂,此時應設定較小學習率 (≤10
−4≤ 10−
4) 在新資料上進行微調。
作用:
防止欠擬合/過擬合/擬合慢。
具體見 深度學習: 學習率 (learning rate)
批規範化,batch normalization,即著名的bn操作。
對應網路模型中的bn層,一般置於啟用函式 之後,池化層 之前。
計算批處理資料的均值和方差,據此對該批資料做規範化,並進行縮放和平移。
作用:影響:
具體見 深度學習: batch normalization (歸一化)
優化演算法 型別 包括 一階優化法 和 二階優化法。
一階優化法較為常見,包括:
隨機梯度下降法、基於動量的隨機梯度下降法、nesterov型動量隨機下降法、adagrad法、adadelta法、rmsprop法、adam法。
具體見 深度學習: 模型優化演算法 。
在已經預訓練好的模型上進行微調。
優勢:
目前,大部分的模型訓練都是遷移學習,已經很少有人從頭開始新訓練乙個模型了。
具體見 深度學習: 遷移學習 (transfer learning) 。
[1] 解析卷積神經網路—深度學習實踐手冊
深度學習 網路訓練技巧
1.1 學習率 learning rate 學習率 是控制模型學習效率 步長 的權重。學習率的大小區分區別 學習率大 學習率小 學習速度快慢 應用場合 訓練初期 數次epoch過後 缺點1.容易損失過大 2.容易發生振盪 1.容易過擬合 2.收斂速度慢 學習率的設定 在訓練過程中,一般根據訓練輪數設...
深度學習 訓練吃顯示卡 學習深度學習,如何選購顯示卡?
學習深度學習,顯示卡 gpu 可以說是比不可少的投資。本文試圖 哪個gpu才是學習入門價效比最高的?為什麼深度學習需要gpu?我們先來比較一下cpu和gpu的不同,下圖是乙個簡化的處理器內部結構圖dram即動態隨機訪問儲存器,是常見的系統記憶體。cache儲存器 電腦中作高速緩衝儲存器,是位於cpu...
深度學習 縮減 召回加速網路訓練
本次介紹的是怎樣通過對訓練資料進行縮減以及召回而加快網路訓練速度,accelerating deep learning with shrinkage and recall 這篇文章給人的感受就是 想法很簡單,實現的也很粗糙。但是,問題的角度比較新穎,而且感覺有很大空間可以繼續挖掘。深度神經網路訓練比...