cs231n 2018系列筆記(lecture7)

2021-08-22 20:10:21 字數 2789 閱讀 3982

所有內容

slides位址

1.普通batchnorm公式,請注意維度,後面會用到

2.test時batchnorm公式

均值和方差用train時候的不需要訓練,其他不變

3.全連線層和卷積層的batchnorm

除了第二維其他都為1

4.layer normalization(arxiv, 2016)

左邊的是batchnorm,兩者對比發現μ和sigmoid維度改了,變成了對每個批次求均值

5.instance normalization(cvpr 2017)

是對卷積操作,不過更操作更細緻

6 .group normlization(arxiv 2018)及視覺化對比圖

可以看到group是對layer norm 與 instance norm的折衷

7.decorrelated batch normalization(arxiv 2018,業界良心4月份的**都上了)

相比batchnorm能夠讓處理後的資料體現更好的相關聯性

**實現(佔坑,只寫一下前向傳播)

sgd:下降較慢,可能遇到鞍點,梯度接近0的時候幾乎停滯,並且14年的**提出高維的時候會有更多的鞍點。由於梯度也是小批量取樣,所以梯度會引入雜訊。
不是很理解為什麼梯度取minibatches會有雜訊

sgd改進型:sgd+momentum(icml 2013)

sgd方法的乙個缺點是,其更新方向完全依賴於當前的batch,因而其更新十分不穩定。解決這一問題的乙個簡單的做法便是引入momentum。

momentum即動量,它模擬的是物體運動時的慣性,即更新的時候在一定程度上保留之前更新的方向,同時利用當前batch的梯度微調最終的更新方向。這樣一來,可以在一定程度上增加穩定性,從而學習地更快,能夠很好的解決鞍點和區域性最小值的問題

杜客:cs231n課程筆記翻譯:神經網路筆記3(下)​zhuanlan.zhihu.com

關於寫法問題,吳恩達的寫法推薦是
更易理解,通常的做法是拿掉(1-beta),但是之前的beta=beta/(1-beta),α也要隨之改變

另外兩種ppt裡面的寫法是等價的,區別在於第一種ρ為負,並且減少了一次乘法運算,速度幾乎沒有區別,第二種ρ為正
nesterov+momentum 的區別在於比 sgd+momentum 多減去了α*grad(ρ*vt)

帳號登入​blog.csdn.net

以上的都是人工設定學習率,總還是有些生硬,接下來介紹幾種自適應學習率的方法。
ycszen:深度學習最全優化方法總結比較(sgd,adagrad,adadelta,adam,adamax,nadam)​zhuanlan.zhihu.com

adam是之前的結合

神經網路的訓練可以採用二階優化方法嗎(如newton, quasi newton)?​www.zhihu.com

由於二階優化計算量過大,deeplearning一般採用一階優化,但對於淺層模型效果和精度都不錯,一階是梯度下降,二階線性擬合和梯度都有
建議:

預設使用adam, sgd+momentum調節好學習率之後通常比adam效果好一點。深度學習不建議二階優化演算法。

sgdr - 搜尋結果 - 知乎​www.zhihu.com

loshchilov and hutter, 「sgdr: stochastic gradient descent with restarts」, arxiv 2016

提高單個模型的表現可以引入

1.正則化

2.dropout
3.資料加入雜訊

4.資料增強,加上transform之類的操作

乙個比較好的處理應該如下,訓練加噪,測試去噪,中間加入examples的操作

最下面的stochastic depth pytorch**實現

吳明昊:deep networks with stochastic depth​zhuanlan.zhihu.com

從上往下,如果是小資料集,只改最頂端的fc-1000,如果是大資料集,需要改動更多層,才能更具通用性。(一般weight都是來自imagenet),下圖是對比。

cs231n筆記總結

cs231n的課程以及作業都完成的差不多了,後續的課程更多的涉及到卷積神經網路的各個子方向了,比如語義分割 目標檢測 定位 視覺化 遷移學習 模型壓縮等等。assignment3有涉及到這些中的一部分,但需要深入了解的話還是得看 了。所以在看 前把之前已學的知識,筆記和作業 一起做個整理。部落格裡主...

CS231n理解筆記

linear classification notes 該方法的組成 乙個是評分函式 原始影象資料到類別分值的對映 乙個是損失函式 用來量化 分類標籤的得分和真實標籤之間的一致性。影象分類的任務是從已有的固定分類標籤中選擇乙個並分配一張影象,我們介紹了knn分類器,該分類器的基本思想是通過將測試影象...

CS231n課程筆記翻譯

賀完結!cs231n官方筆記授權翻譯總集篇發布 智慧型單元 知乎專欄 cs231n課程筆記翻譯 影象分類筆記 上 智慧型單元 知乎專欄 cs231n課程筆記翻譯 影象分類筆記 下 智慧型單元 知乎專欄 cs231n課程筆記翻譯 線性分類筆記 上 智慧型單元 知乎專欄 cs231n課程筆記翻譯 線性分...