學習日誌 深度學習 李巨集毅 優化器介紹

2021-10-14 14:20:43 字數 1304 閱讀 4147

記錄的從第0步優化到第n步優化的步子

最簡單的,走一步看一步

還是走一步看一步,但是在走的每一步會受到之前所走過的步子的影響(下圖中的v)

且越近的步子對當前步子的影響會越大(λ的次數會越來愈高)

重要的優點:當本次梯度為零(梯度消失)後,上一步會保證繼續移動(有點類似慣性和動量的概念)

優點就是控制步長,讓步長不回太大或太小(更接近最佳步長)

預期的效果和adagrad接近,就是讓步長合適

但是adagrad有乙個問題就是,較早期的梯度對當前步長的影響過大

rmsprop會逐漸減小早期步長對當前步長的影響(α的次數會越來越高)

缺點:還是無法解決梯度消失的問題(當前梯度如果為零,那這些引數就都沒有意義)

將動量機制和步長控制結合

β的意義:動量是乙個累計的過程,開始的時候很小,因此要給累積加速.後期就不再需要加速了(β次數愈來愈高)

其實想bert這種大神級模型用的優化器也不過就是adam,為什麼?

因為adam真的太強了.

adam比較快的收斂

sgdm收斂的比較精準

但是什麼時候切換,不好判斷,因此這個方法也不太行

adam其實是有動量機制的,和sgdm其實很接近了.但是為什麼不如sgdm收斂的精準呢?

因為adam引入了β=0.999係數

這就導致在收斂之後,大部分梯度都接近零(就是停留在原地的意向,這部分佔0.999),偶爾會有的一些大梯度(想要繼續移動的意向,這部分佔0.001),這些大梯度被攤薄了.導致關鍵步驟被忽略

這個方法能夠解決這個問題,但是其實導致了更大的問題(只適用小部分情況)

針對adam的收斂問題,上乙個方法的策略是放大較大梯度的影響.

這個放大的策略是縮小較小梯度的影響+放大較大梯度的影響

也不好…

效果也一般

這門課屬於選學內容,後面基本就是辣雞**的綜述,就不聽了.

學習日誌 深度學習 李巨集毅 網路壓縮

網路中有很多神經元的輸出總是0,或者有某些權重非常接近0,那麼這些划水的就可以被去掉了.修剪過程 評估 去除 再訓練 為什麼要修剪?而不是直接訓小的網路呢.1.大的網路的區域性最優比較少,容易收斂 2.大樂透假設 大的網路設定了乙個隨機權重 通過訓練和修剪之後,得到了小的網路.如果用乙個和該小網路相...

學習日誌 深度學習 李巨集毅 指標網路

需要解決的都是一些演算法問題,比如 在輸入點中選擇盡可能少的點,使這些點的連線能包住其他所有點 因為輸入和輸出都是序列,符合s2s的情景 但是有乙個問題 s2s在輸出的時候是在乙個範圍內做多道選擇題,也就是必須給出答案的範圍 當輸入的數量發生變化,超出訓練時的最大範圍之後,模型就失效了 拋棄了seq...

李巨集毅《深度學習》 深度學習簡介

深度學習分為三部分 定義一系列方程,計算方程的loss,然後選出最好的方程 深度學習神經網路類似於人類的大腦的神經網路,每個方程可以看做乙個神經元,不同神經元連線會產生不同結果,在這裡我們介紹一下fully connect feedforward network 每個神經元都與下一層全部的神經元連線...