**:
本次介紹的是怎樣通過對訓練資料進行縮減以及召回而加快網路訓練速度,《accelerating deep learning with shrinkage and recall》。
這篇文章給人的感受就是:
想法很簡單,實現的也很粗糙。但是,問題的角度比較新穎,而且感覺有很大空間可以繼續挖掘。
深度神經網路訓練比較慢,原因基本可以歸為2個方面:模型太大 和 資料太多。這裡文章就把目光拋向了「資料」,一方面我們需要大資料來學習更多的東西和避免過擬合,另一方面大量的資料又極大地增加了訓練的時間。
了解過svm的都知道真正影響最後學習結果的其實只有一部分「支援向量」點,即svm的訓練過程使用了縮減技術,減少了實際的訓練資料量。在lasso演算法中也使用了類似功能的篩選演算法。
受到上述兩種方法的啟發,文章就設想在神經網路上進行類似的 資料縮減
。整個實現非常之簡單,如下圖。下圖紅色框起來的部分就是本文演算法比一般神經網路訓練多的部分。
從上圖可以看出,其思路就是:每一次epoch,都會計算每乙個樣本的誤差,對誤差排序,誤差較小的一些樣本就不再參與下乙個epoch。當乙個epoch中樣本數量小於一定閾值時,再初始化為全部樣本參與訓練。這就是縮減
和 召回
。備註: 實際當中,這種縮減和召回的策略,文章是在batch的層次上操作的。下圖的類正弦曲線,就顯示了這種週期變化的訓練策略:
下表紅色部分,是作者在mnist上面分別測試了3種簡單的神經網路,紅色部分是效能變化。
深度學習 如何訓練網路
目的 快速 有效地擬合。手段 隨機批處理 學習率 批規範化 模型優化演算法 遷移學習。隨機批處理,mini batch,一種在模型每輪 epoch 訓練進行前將訓練資料集隨機打亂 shuffle 的 訓練機制。可以防止被模型猜到 出樣本順序 作用 防過擬合。學習率,learning rate,控制模...
深度學習 網路訓練技巧
1.1 學習率 learning rate 學習率 是控制模型學習效率 步長 的權重。學習率的大小區分區別 學習率大 學習率小 學習速度快慢 應用場合 訓練初期 數次epoch過後 缺點1.容易損失過大 2.容易發生振盪 1.容易過擬合 2.收斂速度慢 學習率的設定 在訓練過程中,一般根據訓練輪數設...
深度網路的預訓練
無監督學習得到資料特徵,可以在最高層加入乙個分類器並通過監督學習進行微調。輸入層神經元個數等於輸出層神經元的個數。sigmoid 其他以方差代價為例,單個樣本的損失函式為 j w,b x,y 12 hw,b x y 2 對包含m 個樣本的資料集,訓練的目標函式為 j w,b 1m i 1 mj w ...