深度學習 優化方法

2021-08-09 11:12:39 字數 1150 閱讀 6374

仍然是讀完deep learning之後的筆記和知識梳理,這些內容其實是偏理論層面的,後續的話可以結合**進行講解。

dl關注的優化問題:尋找神經網路上的一組引數θ,顯著降低代價函式j(θ),j(θ)通常包括整個訓練集上效能評估(er-經驗風險)和額外的正則化項(sr-結構風險)。

對於偏應用層面的可以直接看基本演算法、引數初始化策略及自適應學習率演算法。

自己在看書的時候有個習慣第一遍看的時候畫個思維導圖,第二遍細看take notes。

**損失函式和提前終止

**損失函式作為原目標的**被優化

基於提前終止,收斂條件滿足時,優化**損失函式也停止。此時**損失函式仍然有較大導數。

以0-1損失函式為例,它的**損失函式——正確類別的負對數似然,而提前終止使用真實潛在的損失函式(驗證集上的0-1損失),設計為在過擬合發生之前終止。

批量演算法和小批量演算法

小批量隨機抽取——實際中經常採取打亂樣本一次,抽取時按序抽取

動量動量方法旨在加速學習(針對sgd有時學習過程緩慢),積累了之前梯度指數級衰減的移動平均,繼續沿該方向移動。

主要目的是解決兩個問題:

1.hessian矩陣的病態條件

2.隨機梯度的方差

nesterov動量

相比動量方法,它的不同之處在於計算梯度的時候施加了當前速度。

現在一般採用具動量的sgd優化方法。

目前的初始化策略是簡單的、啟發式的。完全確認的乙個特性是初始化引數需要在不同單元間破壞對稱性。

通常情況下,僅隨機初始化權重,偏移等引數設定啟發式挑選的常數。一般初始化模型的權重為高斯或均勻分布中隨機抽取的值。

深度學習常用優化方法

以下方法都是總結吳恩達深度學習課程的方法。1 梯度下降 batch gd size m 速度比較慢,但每一次都是最優方向 隨機梯度下降 size 1 不能用向量加速,相對來說速度慢,而且最後只會在最優值附近徘徊 mini batch size 16,32,64,128 速度較快,雖然也會在最優值之間...

深度學習各種優化方法比較

標題不能再中二了 本文僅對一些常見的優化方法進行直觀介紹和簡單的比較,各種優化方法的詳細內容及公式只好去認真啃 了,在此我就不贅述了。此處的sgd指mini batch gradient descent,關於batch gradient descent,stochastic gradient des...

深度學習優化

二 損失函式 三 深度學習中遇到的問題 區域性最優 定義 對於目標函式f x 如果f x 在x上的值比在x鄰近的其他點的值更小,那麼f x 可能是乙個區域性最小值 local minimum 如果f x 在x上的值是目標函式在整個定義域上的最小值,那麼f x 是全域性最小值 global minim...