人們總是擔心優化演算法會困在極差的區域性最優, 不過隨著深度學習理論不斷發展,我們對區域性最優的理解也發生了改變。
這是曾經人們在想到區域性最優時腦海裡會出現的圖,也許你想優化一些引數,我們把它們稱之為$$和$$,平面的高度就是損失函式。在圖中似乎各處都分布著區域性最優。梯度下降法或者某個演算法可能困在乙個區域性最優中,而不會抵達全域性最優。如果你要作圖計算乙個數字,比如說這兩個維度,就容易出現有多個不同區域性最優的圖,而這些低維的圖曾經影響了我們的理解,但是這些理解並不正確。事實上,如果你要建立乙個神經網路,通常梯度為零的點並不是這個圖中的區域性最優點,實際上成本函式的零梯度點,通常是鞍點。
但是乙個具有高維度空間的函式,如果梯度為 0,那麼在每個方向,它可能是凸函式,也可能是凹函式。如果你在 2 萬維空間中,那麼想要得到區域性最優,所有的 2 萬個方向都需要是這樣,但發生的機率也許很小,也許是$}$,你更有可能遇到有些方向的曲線會這樣向上彎曲,另一些方向曲線向下彎,而不是所有的都向上彎曲,因此在高維度空間,你更可能碰到鞍點,而不會碰到區域性最優。
由上圖我們可以分析是平穩段會減緩學習,平穩段是一塊區域,其中導數長時間接近於 0,如果你在此處,梯度會從曲面從從上向下下降,因為梯度等於或接近 0,曲面很平坦,你得花上很長時間慢慢抵達平穩段的這個點。
總結:你不太可能困在極差的區域性最優中,條件是你在訓練較大的神經網路,存在大量引數, 並且成本函式j被定義在較高的維度空間。
平穩段是乙個問題,這樣使得學習十分緩慢,這也是像 momentum 或是rmsprop, adam 這樣的演算法,能夠加速學習演算法的地方。在這些情況下,更成熟的優化演算法,如 adam 演算法,能夠加快速度,讓你盡早往下走出平穩段。
6 17 區域性重新整理
2013年6月17日星期一 可編輯 區域性重新整理 1 frameset不能寫在body裡面,也即將幾個子頁面組裝的頁面當中,可以沒有body taglibprefix s uri struts tags 2 在子頁面當中,要操控另外乙個子頁面,要這樣定位 先得到其父頁面,然後在根據id,得到父頁面...
10 3區域性內部類
區域性內部類 在乙個類的方法內部定義另外乙個類,那麼另外乙個類就稱作為區域性內部類 區域性內部類的注意事項 1.如果區域性 內部類訪問了乙個區域性變數,那麼該區域性變數必須使用final修飾 當test方法執行完畢後,那麼y馬上從記憶體中消失,而inner物件在方法執行完畢的時候還沒有從 記憶體中消...
1 17 區域性內部類
區域性內部類是指在乙個方法中定義的內部類。示例 如下 public class test 區域性內部類與區域性變數一樣,不能使用訪問控制修飾符 public private 和 protected 和 static 修飾符修飾。區域性內部類只在當前方法中有效。public class test in...