指定義在凸集中的凸函式最優化的問題
儘管優化方法可以最小化深度學習中的損失函式值,但本質上優化方法達到的目標與深度學習的目標並不相同。
- 優化方法目標:訓練集損失函式值 - 深度學習目標:測試集損失函式值(泛化性)
1. 區域性最小值
2. 鞍點:鞍點是對所有自變數一階偏導數都為0,且hessian矩陣特徵值有正有負的點。 沿著某一方向是穩定的,另一條方向是不穩定的奇點,叫做鞍點。
3. 梯度消失:梯度為0
凸優化問題的區域性最優解就是全域性最優解
很多非凸問題都可以被等價轉化為凸優化問題或者被近似為凸優化問題(例如拉格朗日對偶問題)
凸優化問題的研究較為成熟,當乙個具體被歸為乙個凸優化問題,基本可以確定該問題是可被求解的
凸集合:任意兩點的連線仍在集合內
凸函式:兩者中間的點連線的y大於實際函式的y(比如:最低點向下的拋物線
凸函式性質的不等式:jasen不等式:函式值的期望》期望的函式值
拉格朗日乘子法
新增懲罰項
投影法
動手學深度學習
線性回歸的基本要素 模型 為了簡單起見,這裡我們假設 只取決於房屋狀況的兩個因素,即面積 平方公尺 和房齡 年 接下來我們希望探索 與這兩個因素的具體關係。線性回歸假設輸出與各個輸入之間是線性關係 price warea area wage age b price warea area wage a...
動手學深度學習(一)
其中 w1 和 w2 是權重 weight b 是偏差 bias 且均為標量。訓練資料 損失函式 通常,我們用訓練資料集中所有樣本誤差的平均來衡量模型 的質量 w 1,w 2,b 為使訓練樣本平均損失最小的解 優化演算法 b 代表每個小批量中的樣本個數 批量大小,batch size 稱作學習率 l...
筆記 動手學深度學習
在求數值解的優化演算法中,小批量隨機梯度下降 mini batch stochastic gradient descent 在深度學習中被廣泛使用。它的演算法很簡單 先選取一組模型引數的初始值,如隨機選取 接下來對引數進行多次迭代,使每次迭代都可能降低損失函式的值。在每次迭代中,先隨機均勻取樣乙個由...