吳恩達機器學習筆記(1) 梯度下降隨記

2021-09-17 02:58:42 字數 759 閱讀 4907

賦值:

a:=b

a:=a+1

而不能使用a=b,a=a+1,這兩行只相當於做了乙個判斷

梯度下降是乙個用來求函式最小值的演算法,我們將使用梯度下降演算法來求出代價函式?(?0, ?1) 的最小值。

批量梯度下降(batch gradient descent)演算法的公式為:

其中?是學習率(learning rate),它決定了我們沿著能讓代價函式下降程度最大的方向

向下邁出的步子有多大,在批量梯度下降中,我們每一次都同時讓所有的引數減去學習速率

乘以代價函式的導數。

在梯度下降演算法中,還有乙個更微妙的問題,梯度下降中,我們要更新?0和?1 ,當 ? =

0 和? = 1時,會產生更新,所以你將更新?(?0)和?(?1)。實現梯度下降演算法的微妙之處是,

在這個表示式中,如果你要更新這個等式,你需要同時更新?0和?1,我的意思是在這個等式

中,我們要這樣更新:

?0:= ?0 ,並更新?1:= ?1。

實現方法是:你應該計算公式右邊的部分,通過那一部分計算出?0和?1的值,然後同時

更新?0和?1。【同步更新】

convex function 凸函式

吳恩達深度學習 2 4 梯度下降

在上一節中學習了邏輯回歸模型,也知道了損失函式,損失函式是衡量單一訓練樣例的效果,還知道了成本函式,成本函式用於衡量引數w和b的效果,在全部訓練集上來衡量,下面我們討論如何使用梯度下降法來訓練或學習訓練集上的引數w和b。回歸一下,以下圖中是熟悉的邏輯回歸演算法,第二行是成本函式,成本函式j是引數w和...

吳恩達機器學習筆記 梯度下降法

1 假設函式的引數更新要做到同時更新,即先將求得的引數放在統一的temp中,然後同時賦值給對應的引數w0,w1,w2,w3.2 特徵縮放和收斂速度問題 倘若,特徵向量中一些特徵值相差太大,就會導致代價函式特徵引數的函式曲線很密集,以至於需要多次迭代才能達到最小值。學習率 決定演算法收斂的速度,較大的...

吳恩達機器學習筆記 梯度下降演算法(3)

引言 上節介紹了特徵縮放,可以使梯度下降演算法效率更高,但是還沒有解決收斂問題,這節介紹的自動收斂測試就是解決收斂問題。為什麼要收斂測試?因為在梯度下降演算法中,值是一步一步逼近最佳的,而且j 和 的影象是u型,所以步幅就很重要,如果步幅過大可能會引起 值在最佳之間往返或者越來越遠的問題,所以要進行...