梯度下降法

原理：初始化引數，然後拿到全部樣本，根據全部樣本算出代價函式對引數的偏導數，然後同時更新這些引數。接著還是全部樣本，計算。。。。。

注意：要做同步更新引數，而不是先更新乙個再更新另乙個。

注意：如果如果學習率很大，則每一步都會邁得很大，最後可能不會收斂了，若學習率很小，則步子很小，收斂太慢。

若學習率很大：（下圖是y=j(θ)曲線，縱座標為y）

若學習率較小：

當採用均方誤差形式的代價函式且為多元線性回歸問題時，梯度下降演算法表現為：

等價對應的矩陣表示：

注意：若多元線性回歸當中的不同特徵值（或不同屬性）的所處範圍相差很大時，可以讓對應屬性上的每個元素 - 所有樣本在該屬性上的均值 / 這個屬性的範圍或者標準差，這樣就將所有的特徵值（屬性值）對映到相同區間了，結果這批新資料的均值就為0，標準差為1，這樣會加速梯度下降演算法的收斂速度（feature scaling）。例如：

執行時，隨著迭代次數的不斷增加，引數也在不斷地變化，（每迭代一次，引數變化一次），因而代價函式也在不斷地變化。

注意：當出現下面這些情況時，應該把學習率調低點：

一般這樣嘗試學習率：

定義：

步驟（注意偏導數有變化，外層也可以迴圈上1到10次）：

小技巧：為了更好地實現演算法的收斂，可以使得學習率動態變化：

演算法評價方法：每1000次迭代算一下cost值（更新θ之前），該cost值是前1000個樣本的cost的平均值，隨後把圖畫出來看看。比如下圖，紅色代表學習率更小的那一條，波動表示存在雜訊。當然，若每5000次算一下，那麼曲線會更平滑一點。

它是前2者的折中，第一次選b個樣本進行訓練，第二次選新的b個樣本進行訓練。。。。

梯度下降法

梯度下降法和隨機梯度下降法

梯度下降法

梯度下降法

相關推薦