二、損失函式
三、深度學習中遇到的問題
區域性最優
定義:對於目標函式f(x),如果f(x)在x上的值比在x鄰近的其他點的值更小,那麼f(x)可能是乙個區域性最小值(local minimum),如果f(x)在x上的值是目標函式在整個定義域上的最小值,那麼f(x)是全域性最小值(global minimum)
從上圖可知,目標函式在a點的梯度接近為0或直接為0,但是a只是區域性最優,並非全域性最優
鞍點在梯度為0或直接為0的點是區域性最優,但是還有一種發生的情況,a發生的可能性是處在鞍點附近
鞍點的定義:是函式上的導數為零,但不是軸上區域性極值的點
乙個多元函式的二階偏導數構成的方陣
判斷:
例子說明:
f(x,y,z)=x2+y2+z2+2x+4y-6z
函式一階偏導求得x,y,z的點(-1, -2, 3) 表示在三個變數方向上梯度都是為0的,但是這個點不知道是極小值或者極大值或者鞍點
對該函式繼續求二階偏導結果用海森矩陣表示為:
根據判斷的條件可知(-1, -2, 3)是極小值點,極小值為=-14
梯度消失,梯度**
由上sigmoidd導數可知,sigmoid函式的導數的最大值為0.25 ,通常我們會將權重初始值|w|初始化為為小於1的隨機值,因此我們可以得到
隨著層數的增多,那麼求導結果
越小,這也就導致了梯度消失問題。
在計算梯度時,根據不同情況梯度函式也會以指數級遞減,導致訓練難度上公升,梯度下降演算法的步長會變得非常小,需要訓練的時間將會非常長
那麼如果我們設定初始權重 |w|較大,那麼會有
造成梯度太大,也是造成梯度**的原因
四、 鞍點,區域性最優優化方法
動量梯度下降法的整個過程為如下圖所示,其中β通常設定為0.9:
梯度下降過程對比,如下圖所示
rmsprop(root mean square prop)演算法將這些梯度按元素平方做指數加權移動平均
adagrad演算法在迭代後期由於學習率過小,可能較難找到乙個有用的解。為了解決這一問題,rmsprop演算法對adagrad演算法做了一點小小的修改
公式:
最終自變數每個元素的學習率在迭代過程中就不再一直降低。rmsprop 有助於減少抵達最小值路徑上的擺動,並允許使用乙個更大的學習率 α,從而加快演算法學習速度
adam
adam 優化演算法(adaptive moment estimation,自適應矩估計)將 momentum 和 rmsprop 演算法結合在一起
公式:五、梯度消失,梯度**優化
選擇合適的啟用函式,如relu,leaky relu
引數初始化策略, 初始化權重的較小的值,緩解梯度**
輸入的特徵進行標準化
如果啟用函式的輸入x近似設定成均值為 0,標準方差為 1,神經元輸出 z 的方差就正則化到1了,雖然沒有解決梯度消失和**的問題,但其在一定程度上確實減緩了梯度消失和**的速度
深度學習 優化方法
仍然是讀完deep learning之後的筆記和知識梳理,這些內容其實是偏理論層面的,後續的話可以結合 進行講解。dl關注的優化問題 尋找神經網路上的一組引數 顯著降低代價函式j j 通常包括整個訓練集上效能評估 er 經驗風險 和額外的正則化項 sr 結構風險 對於偏應用層面的可以直接看基本演算法...
深度學習 六 優化
1.優化器 tensorflow 1.1 tf.train.gradientdescentoptimizer 梯度下降 表示式 傳入學習率,目標優化損失 tf.train.gradientdescentoptimizer learning rate minimize loss 1.2 tf.trai...
深度學習優化器
深度學習演算法在許多情況下都涉及優化,我們經常使用解析優化去證明或設計演算法。在深度學習的諸多優化問題中,最難的是神經網路的設計,這其中的優化問題非常重要,代價也很高,因此研究者們開發了一組專門為此設計的優化技術,也就是我們本文中要介紹的 神經網路優化器。這些優化器主要關注一類特定的優化問題 尋找神...