深度學習 深度學習基礎知識 學習率相關技巧

2021-10-23 14:49:40 字數 892 閱讀 8874

對不同的網路層數使用不同的學習率,這樣可以防止過擬合,有利於加速學習。

週期性學習率 + loss的組合進行學習率選取。首先嘗試使用較低學習率來訓練神經網路,以指數形式增加,同時,記錄每個學習率對應的loss值,然後畫出學習率和loss值的關係圖,通過找出學習率最高且loss值人在下降的值來確定最佳學習率。

在採用批次隨機梯度下降演算法時,神經網路應該越來越接近loss值的全域性最小值。當它逐漸接近這個最小值時,學習率應該變得更小來使得模型不會超調且盡可能接近這一點。余弦退火(cosine annealing)利用余弦函式來降低學習率,隨著迭代次數的增加,余弦值首先緩慢下降,然後加速下降,再次緩慢下降。這種下降模式能和學習率配合,以一種十分有效的計算方式來產生很好的效果。同時,在這種方法基礎上,我們可以進一步引入重啟機制。

在訓練時,梯度下降蘇演算法可能陷入區域性最小值,而不是全域性最小值。梯度下降演算法可以通過突然提高學習率,來「跳出」區域性最小值並找到通向全域性最小值的路徑。這種方式稱為帶重啟的隨機梯度下降方法(stochastic gradient descent with restarts,sgdr)

深度學習 深度學習基礎知識 Adagrad

adagrad是一種基於梯度的優化演算法 它將學習速率與引數相適應,對不同的變數提供不同的學習率 它增加了罕見但資訊豐富的特徵的影響 因此,它非常適合處理稀疏資料。在基本的梯度下降法優化中,有個乙個常見問題是,要優化的變數對於目標函式的依賴是各不相同的。對於某些變數,已經優化到了極小值附近,但是有的...

深度學習基礎知識整理

卷積神經網路相關知識 池化層 作用是在語義上把相似的特徵合併起來。卷積神經網路的應用 檢測 分割 物體識別以及影象的各個領域。這些應用都是使用了大量的有標籤的資料。比如交通訊號識別,生物資訊分割,面部探測,文字 行人以及自然圖形中的人的身體部分的探測。今年,卷積神經網路的乙個重大成功應用是人臉識別。...

深度學習基礎知識介紹

這是一篇medium上獲得近2萬讚的深度學習入門指南,用 為你詳解深度學習中的各個基礎概念。在我們的日常生活中,幾乎隨處可見ai和機器學習這些術語。但,絕大多數人並不明白什麼是ai。理解深度學習如何工作的第一步是掌握下列重要術語之間的區別。1 人工智慧 ai v.s.機器學習 ml 人工智慧是對人類...