一般的梯度下降方法尋找的是loss function的區域性極小值,而我們想要全域性最小值。如下誤差曲面圖所示,我們希望loss值可以降低到右側深藍色的最低點,但loss有可能「卡」在左側的區域性極小值中,也就是圖中紅線所走的路徑。
為了防止卡到'區域性最優點',我們有以下幾個方法:
[1]使用隨機梯度下降代替真正的梯度下降。可以這樣理解,每次針對單個資料樣例進行摸索前進時,本質上是在乙個樣例形成的誤差曲面上摸索前進,而每個樣例的曲面大體類似,又不盡相同,當你掉入乙個坑里時,往往能被別的曲面拽出來。
[2]設定衝量。人如其名,本次前進的步伐,根據上一次的步伐,適當調大,好比從高處降落的石頭,會更有機率跨過一些小坑,如果坑非常大,依靠衝量的慣性是沒法逃出的。
[3]不同的初始權值進行訓練。假定誤差曲面是個坑坑窪窪的曲面,我們嘗試第一次降落到隨機的起點,然後再開始摸索前進,也許會有運氣好的一次,能夠不落在某個小坑附近,多次嘗試權重,可能會找到好的全域性點。
2 9 區域性最優的問題
人們總是擔心優化演算法會困在極差的區域性最優,不過隨著深度學習理論不斷發展,我們對區域性最優的理解也發生了改變。這是曾經人們在想到區域性最優時腦海裡會出現的圖,也許你想優化一些引數,我們把它們稱之為 和 平面的高度就是損失函式。在圖中似乎各處都分布著區域性最優。梯度下降法或者某個演算法可能困在乙個區...
深度學習 最優化的學習筆記
感謝蔡超老師的講授,給予了我很大的啟發 svm是我最初學習的分類器之一,svm線性分類器求解過程的推導還是十分優美的 使用了拉格朗日乘子法 具體的推導過程可以參考蔡超老師講授的ppt 這是因為在數值分析法求解的過程中,需要計算矩陣或者張量 在進行這個運算時,會涉及到所有的樣本值,而在目標檢測中,輸入...
深度學習入門課程學習筆記05 最優化問題
通過對之前課程的學習,我們已經能夠對於乙個輸入資料得出它的最終的乙個loss值,那麼下面就該咱們如何去找到乙個最優的引數矩陣,使得最終的loss值達到乙個最小的範圍。這就引入了咱們的最優化問題。下面咱們通過幾種解決方案來詳細討論如何處理這個最優化的問題 首先咱們就算不經過大腦思考也能得出一種方法,我...