gbdt降低學習率可以實現正則化效果呢

2021-09-11 10:57:02 字數 383 閱讀 4446

問題:為什麼降低學習率可以會有正則化效果呢?

因為一般根據在神經網路的經驗而言,降低學習率,可以實現更高的訓練效果,即進一步擬合;

在gbdt中,這個學習率與神經網路中的學習率擔任的角色不一樣;

gbdt中的學習率主要是調節每棵樹的對**結果的貢獻;如果學習率下降,就降低了每棵樹的貢獻;模型訓練的**效果就會下降;為了達到和高學習率相同的效果,就需要生成更多的樹;

當時的疑惑是如果下降學習率,那麼就會生成更多的樹,就會更加擬合;怎麼會有正則化效果呢?

因為下降學習率,並沒有增加更多的樹,前提假設其他的超參是不變的;

在學習率等超引數固定的情況下,樹的數量越多,就模型訓練精度越高; 

在樹的數量等超引數固定的情況下, 學習率越高,模型訓練精度越高;

降低學習率的函式

tf.train.exponential decay learning rate,global step,decay steps,decay rate,staircase false,name none 將指數衰減應用於學習速率。在訓練模型時,經常建議在訓練過程中降低學習速度。該函式將指數衰減函式應...

在訓練的過程中降低學習率

隨著學習的進行,深度學習的學習速率逐步下降 為什麼比 固定的學習速率 得到的結果更加準確?如上圖所示,曲線代表損失值,小球一開始位於 1 處,假設學習速率設定為 v,那麼根據梯度下降,損失值將在 1 2 之間來回移動,無法到達最小值 3 處。要想到達 3 只能降低學習速率。keras中實現方法 le...

學習率衰減的實現方法

optimizer sgd learning rate 0.2 for epoch in range 100 get loss change learning rate optimizer.learning rate 0.2 100 epoch 100 update weightslr schedu...