隨機梯度下降sgd中有乙個重要的超引數batch_size(批量大小),其大小對整個模型訓練的影響總結如下:
1.更大的批量會計算更計算更精確的梯度估計,但是回報是小於線性地。
因為每次引數更新所用到的資料越多,越能代表整體損失函式的梯度,因此梯度精確度更高。
2.極小批量通常難以充分利用多核架構,低於某個值的小批量處理並不會減少計算時間。
3.批量處理中所有樣本可以並行處理,記憶體消耗和批量大小呈正比,通常限制批量大小的是硬體,比如gpu視訊記憶體。
4.在gpu上,通常用2的冪數作為批量大小可以獲得更少的執行時間。
5.小批量在學習過程中加入了雜訊,會有一些正則化效果。但小批量訓練通常需要較小的學習率以保持穩定性,因而需要更多步來遍歷資料集,導致總執行時間變大。
談談深度學習中的 Batch Size
batch size 批尺寸 是機器學習中乙個重要引數,涉及諸多矛盾,下面逐一展開。batch 的選擇,首先決定的是下降的方向。如果資料集比較小,完全可以採用全資料集 full batch learning 的形式,這樣做至少有 2 個好處 其一,由全資料集確定的方向能夠更好地代表樣本總體,從而更準...
談談深度學習中的 Batch Size
batch size 批尺寸 是機器學習中乙個重要引數,涉及諸多矛盾,下面逐一展開。batch 的選擇,首先決定的是下降的方向。如果資料集比較小,完全可以採用全資料集 full batch learning 的形式,這樣做至少有 2 個好處 其一,由全資料集確定的方向能夠更好地代表樣本總體,從而更準...
談談深度學習中的 Batch Size
batch size 批尺寸 是機器學習中乙個重要引數,涉及諸多矛盾,下面逐一展開。batch 的選擇,首先決定的是下降的方向。如果資料集比較小,完全可以採用全資料集 full batch learning 的形式,這樣做至少有 2 個好處 其一,由全資料集確定的方向能夠更好地代表樣本總體,從而更準...