深度學習筆記 2 1 8 其他正則化方法

2021-08-21 17:04:30 字數 1148 閱讀 3057

這裡介紹兩種除去l1、l2以及drop-out的其他正則化方法。

首先第一種是data augmentation,其本質是通過擴大資料集以減少過擬合,有類似正則化的作用,可以作為正則化方法使用。如下圖所示:

對於,可以通過水平翻轉旋轉來增大資料集。對於數字,可以通過扭曲和旋轉,但其實通常對字元作輕微的變形處理,不像上圖中扭曲的那麼誇張。

除了data augmentation,第二種正則化方法是early stopping,如下圖所示:

我們知道,當我們用訓練集去擬合模型時,迭代次數越多,訓練時間越長,我們的訓練誤差會越來越低,這是因為此時的模型已經過擬合了,對訓練集學習得過分完美了,即訓練誤差是隨著迭代次數單調遞減的。而測試誤差就不同了,如上圖所示,測試誤差會先減少後增加,這是因為剛開始模型學習的還不夠,這時模型是由high bias向just right轉變,而隨著訓練,測試誤差也在不斷減少,但當模型訓練到一定程度時,即模型開始由just right向high variance轉變時,這時模型已經過擬合了,所以即使訓練誤差仍在不斷減少,但測試誤差已經開始回公升。

所以在該圖中,測試誤差的最低點對應的迭代次數就是我們需要的,我們需要模型在這時停下來,不再訓練,即早停(early stopping)。

其實在神經網路訓練過程中,對應迭代次數,剛開始的係數接近於0,而中間部分係數是中等,等到迭代次數很大時,w會變得很大。所以early stopping表面上看起來是選擇了合適的迭代次數,控制了迭代次數,實際更是限制了w的大小。這樣來看,early stopping的作用類似於l2,控制權重大小。

在實際解決問題中,我們需要完成兩個目標:1.優化j,即減少目標函式j的取值    2.防過擬合

而early stopping試圖一次性解決這兩個問題,這也是early stopping的缺點。

early stopping相比於l2計算比較簡單,只需計算一次梯度下降,找出迭代過程中的small w, mid-size w, 和large w即可,而l2還需要調超引數lambda的值,計算比較麻煩。但是只要負擔得起計算代價,傾向於推薦使用l2。

深度學習 正則化

1 為啥l1 更具有稀疏性 兩種解釋 1 從l 1和l2 的 來看,貝葉斯學派認為僅僅使用資料是不夠的,還要加入先驗知識,l1 等於拉普拉斯先驗,l2 等於高斯先驗,為了推導和計算方便,會對分布函式取對數,然後再去優化,最後由於引數考慮了 資料先驗,學到的規則更加接近實際,拉普拉斯密度函式的圖形和表...

深度學習 正則化

了解什麼是過擬合問題,以下面為例,我們能夠看到有兩個類別,藍色是分類曲線模型。模型過擬合是因為模型過於複雜,可以通過對特徵變數係數的調整來避免過擬合,而引入正則化正是為了實現這個目的,具體如何實現將在下一節說明。常見的正則化方法有這幾種 說明 這裡的f 範數指的是frobenius範數,和logis...

吳恩達深度學習筆記(Dropout正則化)

dropout概念 dropout作為一種預防cnn過擬合的正則化方法被hinton等人在2012年的經典 imagenet classification with deep convolutional 中提出。dropout的原理很簡單 在一次訓練時的迭代中,對每一層中的神經元 總數為n 以概率p...