SGD中batch size大小的影響

2021-08-20 10:42:48 字數 382 閱讀 6817

隨機梯度下降sgd中有乙個重要的超引數batch_size(批量大小),其大小對整個模型訓練的影響總結如下:

1.更大的批量會計算更計算更精確的梯度估計,但是回報是小於線性地。

因為每次引數更新所用到的資料越多,越能代表整體損失函式的梯度,因此梯度精確度更高。

2.極小批量通常難以充分利用多核架構,低於某個值的小批量處理並不會減少計算時間。

3.批量處理中所有樣本可以並行處理,記憶體消耗和批量大小呈正比,通常限制批量大小的是硬體,比如gpu視訊記憶體。

4.在gpu上,通常用2的冪數作為批量大小可以獲得更少的執行時間。

5.小批量在學習過程中加入了雜訊,會有一些正則化效果。但小批量訓練通常需要較小的學習率以保持穩定性,因而需要更多步來遍歷資料集,導致總執行時間變大。

談談深度學習中的 Batch Size

batch size 批尺寸 是機器學習中乙個重要引數,涉及諸多矛盾,下面逐一展開。batch 的選擇,首先決定的是下降的方向。如果資料集比較小,完全可以採用全資料集 full batch learning 的形式,這樣做至少有 2 個好處 其一,由全資料集確定的方向能夠更好地代表樣本總體,從而更準...

談談深度學習中的 Batch Size

batch size 批尺寸 是機器學習中乙個重要引數,涉及諸多矛盾,下面逐一展開。batch 的選擇,首先決定的是下降的方向。如果資料集比較小,完全可以採用全資料集 full batch learning 的形式,這樣做至少有 2 個好處 其一,由全資料集確定的方向能夠更好地代表樣本總體,從而更準...

談談深度學習中的 Batch Size

batch size 批尺寸 是機器學習中乙個重要引數,涉及諸多矛盾,下面逐一展開。batch 的選擇,首先決定的是下降的方向。如果資料集比較小,完全可以採用全資料集 full batch learning 的形式,這樣做至少有 2 個好處 其一,由全資料集確定的方向能夠更好地代表樣本總體,從而更準...