深度學習正則化方法總結

2021-09-12 18:39:27 字數 2591 閱讀 2988

機器學習模型為了提高模型的泛化效能、減少過擬合,通常都會採用一些正則化方法來控制模型的複雜度。深度學習模型比普通的機器學習模型更複雜,更容易過擬合,因此更需要進行正則化處理,本文總結下深度學習常用的14種正則化方法,提供一些參考。

1、對權重引數增加l1、l2正則項

l1正則化主要是對損失函式增加權重引數w的絕對值項,權重服從laplace分布,得到的引數通常比較稀疏,常用於特徵選擇。

l2正則化對損失函式增加權重引數w的平方項,權重服從高斯分布,得到的模型引數通常比較小。

2、擴充資料集

通常來說更多的資料訓練出來的模型泛化性更好,但是通常訓練資料是有限的,需要通過一定的方法來擴充資料集。對於分類問題,通常包含非常多的特徵,通過這些特徵來推斷類別標籤,對資料集的變化一般不是很敏感,因此擴充資料集相對更加容易。

擴充資料集效果最好的乙個領域是目標識別(影象識別、語音識別),影象通常包含高維特徵和大量的形變,實踐表明,通過對影象進行旋轉變換以及縮放來擴充資料集,影象識別效果得到了比較大的提公升。

另一種擴充資料集的方法是對神經網路輸入新增隨機噪音,實踐表明,只要控制噪音新增的幅度,識別效果通常有較大的提公升。

3、新增魯棒性噪音

通過對網路權重新增噪音,常用在rnn網路中,可以被看成是對權重貝葉斯推斷的一種隨機實現,貝葉斯學習認為權重是不確定的,並且能通過一定的概率分布來反映這種不確定性。

因為大部分的資料集存在一些類別標籤誤標的情況,因此用這些資料訓練出來的模型是有問題的,一種解決方法就是對類別標籤新增隨機噪音,使標籤以一定的概率成立。

4、半監督學習

半監督學習結合了監督學習和無監督學習,無監督學習通常會將樣本聚類,相似的樣本屬於同乙個類別,監督學習可以利用無監督學習的聚類結果,例如融合聚類標籤作為監督學習的乙個新特徵來訓練監督學習。

5、多工學習

如上圖所示,對於輸入x,多工之間共享一部分權重

因為相對單任務訓練,共享權重的訓練樣本是原來的3倍,得到的共享權重泛化能力更強。從深度學習的角度來理解,對於不同任務學習出的模型影響因子中,有很多相同的因子。

如上圖所示,一般模型訓練過程中,訓練集誤差會越來越小,驗證集誤差先變小,後面越來越大,說明模型開始過擬合了。

early stopping執行步驟如上圖所示:驗證集誤差減少時會記下模型引數和最後迭代次數,誤差增大時會記下次數,當次數超過p時,訓練停止,返回記下的模型引數和最後迭代次數。

early stopping的原理解釋:如上圖所示,左圖為early stopping過程,尋找最優引數w的過程沿著負最大似然方向,不是返回誤差最小的點,而是返回附近的點,這跟l2正則化過程類似,不是返回全域性最小值點,而是返回跟正則化約束的交點。

7、引數共享

引數共享應用最多的是cnn網路,影象從統計上來說對位置變換不敏感,因此cnn網路通過引數共享來減少引數數量,加快訓練速度,從而提高網路大小,並且不需要增加訓練樣本。

8、稀疏表達

稀疏表達通過對神經網路啟用函式輸出結果增加懲罰項,使啟用輸出更加稀疏(大部分為0),通過這種方式來對模型引數間接地增加懲罰項。

常用的稀疏化方法包括l1正則化、t分布先驗、kl散度懲罰等。

9、整合學習

bagging通過融合多種模型,能夠減少模型方差,從而減小泛化誤差。首先需要對資料集進行有返回取樣,生成k份訓練樣本,然後訓練k個模型,最後對k個**結果進行投票或者取平均值。

10、dropout

dropout是模型正則化的一種比較高效的方法,通過以一定概率刪除神經網路輸入層、隱含層單元,從而生成大量具有不同結構的神經網路整合模型。

如上圖所示,左圖為乙個包含2個輸入單元、2個隱含單元、1個輸出單元的神經網路,右圖包含了對2個輸入單元、2個隱含單元以一定概率刪除後的16個神經網路。

深度學習中的正則化方法及總結

機器學習的乙個核心問題是設計不僅在訓練資料上表現好,而且能在新輸入上的泛化能力好的演算法。在機器學習中,許多策略被顯式的設計來減少測試誤差。這些策略統稱為正則化。在深度學習場景中我們幾乎總是發現最好的擬合模型 從最小化泛化誤差的意義上 是乙個適當正則化的大型模型。下面來介紹幾種策略,以建立這些正則化...

深度學習 正則化

1 為啥l1 更具有稀疏性 兩種解釋 1 從l 1和l2 的 來看,貝葉斯學派認為僅僅使用資料是不夠的,還要加入先驗知識,l1 等於拉普拉斯先驗,l2 等於高斯先驗,為了推導和計算方便,會對分布函式取對數,然後再去優化,最後由於引數考慮了 資料先驗,學到的規則更加接近實際,拉普拉斯密度函式的圖形和表...

深度學習 正則化

了解什麼是過擬合問題,以下面為例,我們能夠看到有兩個類別,藍色是分類曲線模型。模型過擬合是因為模型過於複雜,可以通過對特徵變數係數的調整來避免過擬合,而引入正則化正是為了實現這個目的,具體如何實現將在下一節說明。常見的正則化方法有這幾種 說明 這裡的f 範數指的是frobenius範數,和logis...