梯度下降是乙個用來求函式最小值的演算法,我們將使用梯度下降演算法來求出代價函式 j(θ0,θ1)的最小值。
梯度下降背後的思想是:開始時我們隨機選擇乙個引數的組合( θ0,θ1,...,θn),計算代價函式,然後我們尋找下乙個能讓代價函式值下降最多的引數組合。 我們持續這麼做直到到到乙個區域性最小值( local minimum) ,因為我們並沒有嘗試完所有的引數組合,所以不能確定我們得到的區域性最小值是否便是全域性最小值( global minimum) ,選擇不同的初始引數組合,可能會找到不同的區域性最小值。
梯度下降(gradient descent)演算法的公式為:(repeat until convergence 重複直至收斂)
其中α是學習率( learning rate) ,它決定了我們沿著能讓代價函式下降程度最大的方向向下邁出的步子有多大(α越大,步子越大;反之α越小,步子越小。α為正數,不宜過大或過小,因為太小的話梯度下降會很慢,太大會導致無法收斂甚至發散。),在梯度下降中,我們每一次都同時讓所有的引數減去學習速率乘以代價函式的導數。(注意:公式中的「:=」表示賦值,你需要同時更新θ0,θ1。你應該像下圖中correct部分那樣同時更新)如果已經到了使代價函式區域性最小的地方,則θ0,θ1的值將不在變化,因為此處的斜率為零。
注意: 只要你使用線性回歸,它總是會收斂到全域性最優,因為沒有其他的區域性最優解。
機器學習學習筆記 梯度下降
梯度下降演算法的思維過程 x為訓練資料輸入值。y為訓練資料輸出值。為 x的係數,也就是要求的。1.公式 h x ixi 使 盡可能的準確 可以理解為理想情況下對每一組樣本都有 h x i y i 2 0 非理想情況下希望 j h x i y i 2 2 盡可能小。2.梯度下降的思路是 先取一組隨機的...
機器學習 梯度下降
參照 機器學習 這本書的第4.4.3節。一.解決目標及情景假設 當給定一些資料,輸入x向量已知,輸出y也已知,設計乙個線性函式y h x 去擬合這些資料。既然是線性函式,在此不妨設為h x w0 x0 w1 x1。此時我們遇到的問題就是如何確定w0和w1這兩個引數,即w w0,w1 這個向量。既然是...
機器學習 梯度下降
梯度下降法 如果讀者對方向導數和梯度的定義不太了解,請先閱讀上篇文章 方向導數與梯度 前些時間接觸了機器學習,發現梯度下降法是機器學習裡比較基礎又比較重要的乙個求最小值的演算法。梯度下降演算法過程如下 1 隨機初始值 2 迭代 在這裡,簡單談一下自己對梯度下降法的理解。首先,要明確梯度是乙個向量,是...