第七講、最優化
1.優化目標
2.梯度下降
②隨機梯度下降sgd
訓練乙個樣本,更新—次引數;mini-batch是sgd的推廣,通常所說sgd即是mini-batch。
③病態條件
病態條件:不同方向有不同的梯度;學習率的選擇困難。
④區域性最小
區域性最小(local minima)權重空間是對稱的/放大或者縮小權重。
以前的觀點:區域性最小是乙個嚴重的問題。
現在:情況不同!
部最小非常接近於訓練誤差;實驗和理論支援
⑤鞍點鞍點(saddle points)梯度為0,hessian矩陣同時存在正值和負值
heissan矩陣的所有特徵值為正值的概率很低·
對於高維情況,鞍點和區域性最小點的數量多
⑥平台定義:梯度為零,hessian矩陣也為0
加入噪音使得從平台區域跳出。
⑦梯度**與懸崖在rnn中非常常見,引數不斷相乘導致;
長期時間依賴性。
解決辦法:梯度截斷(gradient clipping),啟發式梯度截斷干涉以減少步長。
3.動量法
·p也可以隨著迭代次數的增大而變大隨著時間推移調整p比收縮n更重要。
動量法克服了sgd中的兩個問題:
②nesterov動量法
java學習基礎第七講
for 表示式 判斷條件 表示式 執行順序 看表示式 值賦給變數 變數去判斷條件,如果條件成立執行迴圈體 如果不成立不執行.for迴圈變數的作用域問題 在for迴圈表示式內定義的變數只能在當前迴圈體使用,如果變數在for迴圈體外面 則作用域在for迴圈外使用,for迴圈內不可重複定義 while 判...
MySQL學習筆記 第七講 子查詢
第七講 子查詢 1.定義 語句內部的查詢語句,就是子查詢語句,子查詢語句需要用括號括起來 2.子查詢分類 不同的分類會有不同的使用方式 分類標準 子查詢出現的位置 where型 where後 from型 from後 exists型 子查詢返回值形式 單一值 一列 多列 表 多行多列 列子查詢,強調的...
讀書筆記(第七講)
本講主要是講述迴圈控制語句包括 while,do.while,for語句。跟前面講的差不多,這些不是物件導向程式設計,以上講的都是一些語言學習的基礎。在任何語言上都會接觸到。對於迴圈控制語句有乙個比較經典的例子就是從1加到100,求和!這題目已經百做都厭了。public class whiletes...