SGD中batch size大小的影響

隨機梯度下降sgd中有乙個重要的超引數batch_size（批量大小），其大小對整個模型訓練的影響總結如下：

1.更大的批量會計算更計算更精確的梯度估計，但是回報是小於線性地。

因為每次引數更新所用到的資料越多，越能代表整體損失函式的梯度，因此梯度精確度更高。

2.極小批量通常難以充分利用多核架構，低於某個值的小批量處理並不會減少計算時間。

3.批量處理中所有樣本可以並行處理，記憶體消耗和批量大小呈正比，通常限制批量大小的是硬體，比如gpu視訊記憶體。

4.在gpu上，通常用2的冪數作為批量大小可以獲得更少的執行時間。

5.小批量在學習過程中加入了雜訊，會有一些正則化效果。但小批量訓練通常需要較小的學習率以保持穩定性，因而需要更多步來遍歷資料集，導致總執行時間變大。

談談深度學習中的 Batch Size

batch size 批尺寸是機器學習中乙個重要引數，涉及諸多矛盾，下面逐一展開。batch 的選擇，首先決定的是下降的方向。如果資料集比較小，完全可以採用全資料集 full batch learning 的形式，這樣做至少有 2 個好處其一，由全資料集確定的方向能夠更好地代表樣本總體，從而更準...

SGD中batch size大小的影響

談談深度學習中的 Batch Size

談談深度學習中的 Batch Size

談談深度學習中的 Batch Size

相關推薦