原
2023年08月04日 11:35:26
史丹利復合田
閱讀數 16292
更多分類專欄:
深度學習
深度學習優化函式詳解
深度學習優化函式詳解系列目錄
本系列課程**,歡迎star:
深度學習優化函式詳解(0)-- 線性回歸問題
深度學習優化函式詳解(1)-- gradient descent 梯度下降法
深度學習優化函式詳解(2)-- sgd 隨機梯度下降
深度學習優化函式詳解(3)-- mini-batch sgd 小批量隨機梯度下降
深度學習優化函式詳解(4)-- momentum 動量法
深度學習優化函式詳解(5)-- nesterov accelerated gradient (nag)
深度學習優化函式詳解(6)-- adagrad
↑這是momentum下降法示意圖
↑這是nag下降法示意圖
看上面一張圖仔細想一下就可以明白,nesterov動量法和經典動量法的差別就在b點和c點梯度的不同。
上圖直觀的解釋了nag的全部內容。
第一次看到nag的梯度下降公式的時候我是懵的,梯度下降的流程比較明白,公式上不太理解。後來推導了好半天才得到nag的公式,下面就把我推導的過程寫出來。我推導公式的過程完全符合上面nag的示意圖,可以對比參考。
記v tv
↑ 這是nesterov方法
↑ 這是動量法(momentum)
沒有對比就沒有傷害,nag方法收斂速度明顯加快。波動也小了很多。實際上nag方法用到了二階資訊,所以才會有這麼好的結果。
深度學習優化函式詳解系列目錄
本系列課程**,歡迎star:
深度學習優化函式詳解(0)-- 線性回歸問題
深度學習優化函式詳解(1)-- gradient descent 梯度下降法
深度學習優化函式詳解(2)-- sgd 隨機梯度下降
深度學習優化函式詳解(3)-- mini-batch sgd 小批量隨機梯度下降
深度學習優化函式詳解(4)-- momentum 動量法
深度學習優化函式詳解(5)-- nesterov accelerated gradient (nag)
深度學習優化函式詳解(6)-- adagrad
↑這是momentum下降法示意圖
↑這是nag下降法示意圖
看上面一張圖仔細想一下就可以明白,nesterov動量法和經典動量法的差別就在b點和c點梯度的不同。
上圖直觀的解釋了nag的全部內容。
第一次看到nag的梯度下降公式的時候我是懵的,梯度下降的流程比較明白,公式上不太理解。後來推導了好半天才得到nag的公式,下面就把我推導的過程寫出來。我推導公式的過程完全符合上面nag的示意圖,可以對比參考。
記v tv
↑ 這是nesterov方法
↑ 這是動量法(momentum)
沒有對比就沒有傷害,nag方法收斂速度明顯加快。波動也小了很多。實際上nag方法用到了二階資訊,所以才會有這麼好的結果。
第5講 zend原理深度剖析
1.檔案.htaccess的重寫機制 如果 apache 開啟了重寫機制,則在 apache 啟動時,會去找 的根目錄有沒有 htaccess 檔案,如果有則按 htaccess 檔案中的規則,沒有則預設。在 apache 的底層 中有如下方法 所以讀取的是 根目錄,命名為 htaccess 的檔案...
深度學習優化函式
深度學習優化函式詳解系列目錄 本系列課程 歡迎star 深度學習優化函式詳解 0 線性回歸問題 深度學習優化函式詳解 1 gradient descent 梯度下降法 深度學習優化函式詳解 2 sgd 隨機梯度下降 深度學習優化函式詳解 3 mini batch sgd 小批量隨機梯度下降 深度學習...
PyTorch 深度學習實踐 第2講
第2講 linear model 源 b站 劉二大人 傳送門 pytorch深度學習實踐 線性模型 說明 1 函式forward 中,有乙個變數w。這個變數最終的值是從for迴圈中傳入的。2 for迴圈中,使用了np.arange。若對numpy不太熟悉,傳送門numpy資料計算從入門到實戰 3 p...