keras搬磚系列 調參經驗

2021-08-14 20:47:36 字數 575 閱讀 1263

1,觀察

loss勝於觀察準確率,

loss設計要比較合理,對比訓練集和驗證集的

loss 2,

relu可以很好的防止梯度瀰散的問題,當然最後一層啟用函式盡量別用

relu,如果分類則用

softmax

3, batchnorm 可以大大加快訓練速度和模型的效能

4, dropout防止過擬合,可以直接設定為0.5,一半一半,測試的時候把

dropout關掉 5,

loss選擇,一般來說分類就是

softmax,回歸就是l2的loss,但是loss的錯誤範圍(主要是回歸)**乙個

10000的值,模型輸出為0

6,準確率是乙個評測指標,但是訓練過程中loss你會發現有些情況,準確率是突變的,原來一直是0,可能保持上千迭代,然後變1。而loss不會有那麼詭異的發生,畢竟優化目標為loss

7,學習率設定得合理,太大

loss**,太小則沒有反應

8,對不訓練集和驗證集的

loss,判斷過擬合,訓練是否足夠,是否需要

early stop

此文全抄自別處。。。

keras搬磚系列 正則項

正則項在優化的過程中層的引數或者層的啟用值新增懲罰項,這些懲罰項將與損失函式一起作為網路的最終優化目標。懲罰項是對層進行懲罰,目前懲罰項的介面與層有關。主要由 kernel regularizer 施加在權重上的正則項,為keras.regularizer.regularizer物件 bias re...

keras搬磚系列 正則化

1,正則化簡介 以邏輯回歸來對正則化進行介紹 邏輯回歸原來的代價函式為 minw,b j w,b minw,b1m mi 1 l y i y i 其中 w r nx,b r加入正則化為 j w,b 1m mi 1 l y i y i 2 m w 22 其中 w 2 nx j 1 wtw 上述式子為l...

keras搬磚系列 keras多輸入多輸出模型

使用函式式模型的乙個典型的場景就是搭建多輸入,多輸出模型。考慮這樣乙個模型,希望 一條新聞會被 和點讚多少次。模型的主要輸入是新聞的本身,也就是乙個詞語的序列,但是我們可能還需要額外的輸入,新聞發布的日期等,所以這個模型的損失函式將會由兩個部分組成,輔助的損失函式基於新聞本身做出的 的情況,主損失函...