深度學習(一) tips

2021-10-21 00:21:39 字數 878 閱讀 9721

神經元個數增加,模型複雜度提公升,全連線層數加深,模型非線性表達能力提高。

在機器翻譯中,用更大的batch size配合更大學習率能提公升模型優化速率和模型效能

參考自:

整體效果 roberta>xlnet>bert

參考: 

warmup是在resnet**中提到的一種學習率預熱的方法,它在訓練開始的時候先選擇使用乙個較小的學習率,訓練了一些epoches或者steps(比如4個epoches,10000steps),再修改為預先設定的學習來進行訓練。

由於剛開始訓練時,模型的權重(weights)是隨機初始化的,此時若選擇乙個較大的學習率,可能帶來模型的不穩定(振盪),選擇warmup預熱學習率的方式,可以使得開始訓練的幾個epoches或者一些steps內學習率較小,在預熱的小學習率下,模型可以慢慢趨於穩定,等模型相對穩定後再選擇預先設定的學習率進行訓練,使得模型收斂速度變得更快,模型效果更佳。

softmax用來做多分類,sigmoid做二分類。多標籤就是多個softmax或者多個sigmoid

bert ln可以和dropout一起用

bn不可以和dropout一起用

模型蒸餾, 設定溫度t, 大模型logits 訓練小模型。 loss 需要乘t方

資料蒸餾, n折交叉驗證

參考 cuda_visible_devices=7 tensorboard --logdir=/home/zhuyuanqing/resources/legal/cail/runs/1559284939/summaries/train

看loss

深度學習——視覺化介面(一) tensorboard

深度學習(一)深度學習學習資料

持續更新 一 學習清單 1 收集了各種最新最經典的文獻,神經網路的資源列表 2 計算機視覺學習清單 3 機器學習學習清單 二 訓練資料 人臉資料 1 香港中文大學訓練資料集 此資料庫包含了20w張人臉,每張標註了5個特徵點 以及幾十種屬性 是否微笑 膚色 髮色 性別等屬性 2 68個人臉特徵點 3 ...

深度學習一

一 線性回歸 損失函式 在模型訓練中,我們需要衡量 值與真實值之間的誤差。通常我們會選取乙個非負數作為誤差,且數值越小表示誤差越小。乙個常用的選擇是平方函式。它在評估索引為 ii 的樣本誤差的表示式為 l i w,b 12 y i y i 2,l i w,b 12 y i y i 2,l w,b 1...

深度學習深度學習(一)開篇

深度學習 深度學習 記得9年前寫的一篇部落格,十年的程式設計師,一晃眼,差不多10年又快到了。這一輪的人工智慧,深度學習,他是我見到的乙個非常特殊的程式設計方式 用資料程式設計。是的,他絕對不像其他的程式語言,是完全乙個嶄新的天地,掌握她,絕對會帶來驚喜 你會發現以前感覺超級難的東西會忽然 哇,這個...