卷積神經網路(四) 學習率 權重衰減 動量

2021-08-16 23:00:08 字數 1120 閱讀 3578

學習率、權重衰減、動量被稱為超引數,因為他們不是由網路訓練而得到的引數

c0代表原始的代價函式,後面那一項就是l2正則化項,λ就是權重衰減項。

作用:防止過擬合

原理

乙個所謂「顯而易見」的解釋就是:更小的權值w,從某種意義上說,表示網路的複雜度更低,對資料的擬合剛剛好(這個法則也叫做奧卡姆剃刀),而在實際應用中,也驗證了這一點,l2正則化的效果往往好於未經正則化的效果。當然,對於很多人(包括我)來說,這個解釋似乎不那麼顯而易見,所以這裡新增乙個稍微數學一點的解釋(引自知乎):

過擬合的時候,擬合函式的係數往往非常大,為什麼?如下圖所示,過擬合,就是擬合函式需要顧忌每乙個點,最終形成的擬合函式波動很大。在某些很小的區間裡,函式值的變化很劇烈。這就意味著函式在某些小區間裡的導數值(絕對值)非常大,由於自變數值可大可小,所以只有係數足夠大,才能保證導數值很大。

效果

權重衰減項對wi的導數正比於wi的值,因此所有wi在每次迭代中會等比縮小

作用:控制梯度下降的速度

注意點:如果學習速率過小,則會導致收斂速度很慢。如果學習速率過大,那麼其會阻礙收斂,即在極值點附近會振盪,因此通常會控制學習率使其在多次迭代後衰減,使得網路可以順利收斂

v表示每次更新的變化量,上乙個時刻的變化量乘以的係數γ,就是動量新增的部分。

作用

對於那些當前的梯度方向與上一次梯度方向相同的引數,那麼進行加強,即這些方向上更快了;對於那些當前的梯度方向與上一次梯度方向不同的引數,那麼進行削減,即在這些方向上減慢了。

原理

從公式上看,相當於每次更新的時候,都會考慮上次的更新值,如果方向一樣就變得越來越快,如果方向不同,就會相互抵消,以便收斂。

卷積神經網路 四

relu的全稱是rectified layer units,它是一層使用非飽和啟用函式的神經元。神經網路通常使用sigmoid 和 tanh 作為非線性啟用函式,它確實比早期的線性啟用函式有好的多的效果。但在深度神經網路中,如果不使用pre traning,會導致gradient vanishing...

卷積神經網路學習2

經典結構 感受野 類似神經元只接受其所支配的刺激區域內的訊號。分布式表示 每個語義概念由許多分別在不同神經元中被啟用的模式表示,而每個神經元又可以參與到不同的語義概念的表示中去。即 分布式表示 與神經元是乙個多對多對映。如輸入影象為224 224,最後一層匯合層可得到7 7 512的響應張量,512...

深度學習 卷積神經網路

一 卷積神經網路基礎 二 lenet 三 常見的一些卷積神經網路 卷積層的超引數 填充和步幅。步幅 stride 每次卷積核在輸入陣列上滑動的行數與列數。多輸入與輸出通道 將3維陣列除寬高外的一維稱為通道維。1 1卷積層 包含1 1的卷積核的卷積層。1 1卷積核在不改變輸入高寬的情況下調整通道數。如...