梯度下降 from 吳恩達的機器學習

2021-08-20 08:24:26 字數 1325 閱讀 3300

梯度下降:用來求函式最小值的演算法,使用梯度下降演算法來求出代價函式的最小值。

梯度下降思想是:開始時我們隨機選擇乙個引數的組合 ,計算代價函式,然後我們尋找下乙個能讓代價函式值下降最多的引數組合。我們持續這麼做直到到到乙個區域性最小值(local minimum),因為我們並沒有嘗試完所有的引數組合,所以不能確定我們得到的區域性最小值是否便是全域性最小值(global minimum),選擇不同的初始引數組合,可能會找到不同的區域性最小值。

批量梯度下降(batch gradient descent)演算法的公式為:

實現梯度下降演算法的微妙之處是,在這個表示式中,如果你要更新這個等式,你需要同時更新

描述:對learning rate),它決定了我們沿著能讓代價函式下降程度最大的方向向下邁出的步子有多大。

在梯度下降法中,當我們接近區域性最低點時,梯度下降法會自動採取更小的幅度,這是因為當我們接近區域性最低點時,很顯然在區域性最低時導數等於零,所以當我們接近區域性最低時,導數值會自動變得越來越小,所以梯度下降將自動採取較小的幅度,這就是梯度下降的做法。所以實際上沒有必要再另外減小 。

推導方法

批量梯度下降」,指的是在梯度下降的每一步中,我們都用到了所有的訓練樣本,在梯度下降中,在計算微分求導項時,我們需要進行求和運算,所以,在每乙個單獨的梯度下降中,我們最終都要計算這樣乙個東西,這個項需要對所有 個訓練樣本求和。

吳恩達機器學習筆記 梯度下降法

1 假設函式的引數更新要做到同時更新,即先將求得的引數放在統一的temp中,然後同時賦值給對應的引數w0,w1,w2,w3.2 特徵縮放和收斂速度問題 倘若,特徵向量中一些特徵值相差太大,就會導致代價函式特徵引數的函式曲線很密集,以至於需要多次迭代才能達到最小值。學習率 決定演算法收斂的速度,較大的...

吳恩達機器學習004多元梯度下降

標籤 演算法 機器學習 目錄特徵和多項式回歸 正規方程 我們引入更加多的特徵來對房價進行進一步評估,同時也新增一些符號來幫助表示引數。n用來表示特徵 feature 量,x i 這是表示的就不是乙個值了,而是一組向量 同時用xj i 來表示向量裡的具體哪乙個引數 有了多個特徵之後假設函式就應該將所有...

吳恩達機器學習筆記 梯度下降演算法(3)

引言 上節介紹了特徵縮放,可以使梯度下降演算法效率更高,但是還沒有解決收斂問題,這節介紹的自動收斂測試就是解決收斂問題。為什麼要收斂測試?因為在梯度下降演算法中,值是一步一步逼近最佳的,而且j 和 的影象是u型,所以步幅就很重要,如果步幅過大可能會引起 值在最佳之間往返或者越來越遠的問題,所以要進行...