深度學習(7) Mini batch梯度下降法

2021-10-05 05:19:37 字數 423 閱讀 6669

在前面的學習當中,對於神經網路的每次迭代,我們都是以整個訓練集x為單元進行訓練。這種訓練方法也叫batch梯度下降法。

由於跑完整個x後才能更新引數,當資料量較大時,每次迭代的時間會非常長。

batch梯度下降法的代價函式一定會嚴格遞減。

為例減小每次跌打的時間,我們試圖縮小每次迭代的資料量

在這個方法中,我們每次迭代只訓練一組資料,然後就更新引數。

這樣做的問題在於,完全沒有辦法利用到向量化的加速。

隨機梯度下降法的代價函式不一定會嚴格遞減,因為對應著不同的資料,偏差可能大不相同。某些資料可能是特殊點。所以只能做到總體趨勢上代價函式在遞減。

綜合上面兩個方法的利弊,我們的batch既不能取m,也不能取1,應當取乙個適當的數。在實際操作中,往往取64-512的2的冪次的資料。這樣做既能加快迭代速度,又能充分利用向量化的優勢。

深度學習(七)梯度下降法

應用機器學習演算法時,我們通常採用梯度下降法來對採用的演算法進行訓練。其實,常用的梯度下降法還具體包含有三種不同的形式,它們也各自有著不同的優缺點。總結如下 下面我們以線性回歸演算法來對三種梯度下降法進行比較。一般線性回歸函式的假設函式為 對應的能量函式 損失函式 形式為 下圖為乙個二維引數 0和 ...

myql深度學習7 索引

1 將乙個表的查詢的結果插入到另乙個表中 insert into table name1 column list1 select column list2 from table name2 where condition 2 索引是對資料庫表中一列或多列的值進行排序的一種結構,使用索引可以提高資料庫...

吳恩達深度學習 2 4 梯度下降

在上一節中學習了邏輯回歸模型,也知道了損失函式,損失函式是衡量單一訓練樣例的效果,還知道了成本函式,成本函式用於衡量引數w和b的效果,在全部訓練集上來衡量,下面我們討論如何使用梯度下降法來訓練或學習訓練集上的引數w和b。回歸一下,以下圖中是熟悉的邏輯回歸演算法,第二行是成本函式,成本函式j是引數w和...