一般來說,深度學習所要做的事情是用已有的訓練集訓練乙個網路模型,然後針對新的資料給出**,我們期望我們的模型在訓練集和測試集上都有良好的表現,但是有的時候兩者不可兼得。一種情況是在訓練集上表現很好,在測試集上表現不好或表現一般;另一種情況是在訓練集上表現不好或表現一般,在測試集上表現很好。相比較而言我們更傾向於後者,因為這是我們訓練模型的目的。
為什麼會出現這種情況,難道不是應該訓練集上表現的越好在測試集上表現越好嗎?不是的,我們在前面的文章中分析過,過度的擬合乙個訓練集往往會放大哪些沒有那麼重要的向量或因素,過擬合會導致泛化能力的下降,正則化就是為了減小測試誤差的,雖然有的時候可能會以增大訓練誤差為代價,但是這是值得的,這些策略統稱為正則化。下面給出乙個簡單的非嚴謹的正則化定義:
正則化:減小泛化誤差而不是訓練誤差所做的對演算法的修改我們經常會對估計進行正則化,估計的正則化採取的方式是以偏差的增大來換取方差的減小,尤其是顯著的減小方差而較小的增大偏差往往是我們追求的目標。接下來我們就分別分析介紹一下正則化的策略。
引數範數懲罰
j ~(
θ;x,
y)=j
(θ;x
,y)+
αω(θ
),α∈
[0,∞
)\widetilde(θ; x, y) = j(θ; x, y) + αω(θ), α∈[0, ∞)
j(θ;x,
y)=j
(θ;x
,y)+
αω(θ
),α∈
[0,∞
)α 是懲罰引數,當 α 為 0 時代表沒有懲罰;ω 是範數懲罰項;j 為目標。神經網路中,引數包括每一層的仿射變換的權重和偏置,我們只對權重做懲罰。
l2 正則化(權重衰減)
感知有較高方差輸入,與輸出目標協方差較小的特徵的權重會收縮。
目 標函
數:j~
(θ;x
,y)=
j(θ;
x,y)
+α2w
tw,ω
(θ)=
12∣∣
w∣∣2
2梯度:
∇wj~
(θ;x
,y)=
αw+∇
wj(θ
;x,y
)單步梯
度下降更
新權重:
w←w−
ϵ(αw
+∇wj
(θ;x
,y))
目標函式:\widetilde(θ; x, y) = j(θ; x, y) + \fracw^tw,ω(θ)=\frac||w||^2_2 \\ 梯度:\nabla_w\widetilde(θ;x,y)=αw+\nabla_wj(θ;x,y) \\ 單步梯度下降更新權重:w\leftarrow w-\epsilon(αw+\nabla_wj(θ;x,y))
目標函式:j
(θ;x
,y)=
j(θ;
x,y)
+2α
wtw,
ω(θ)
=21
∣∣w∣
∣22
梯度:∇
wj(
θ;x,
y)=α
w+∇w
j(θ
;x,y
)單步梯
度下降更
新權重:
w←w−
ϵ(αw
+∇w
j(θ;
x,y)
)l1 正則化
目 標函
數:j~
(θ;x
,y)=
j(θ;
x,y)
+α∣∣
w∣∣1
梯度:∇
wj~(
θ;x,
y)=α
sign
(w)+
∇wj(
θ;x,
y)
目標函式:\widetilde(θ; x, y) = j(θ; x, y) + α||w||_1 \\ 梯度:\nabla_w\widetilde(θ;x,y)=αsign(w)+\nabla_wj(θ;x,y)
目標函式:j
(θ;x
,y)=
j(θ;
x,y)
+α∣∣
w∣∣1
梯度:
∇wj
(θ;x
,y)=
αsig
n(w)
+∇w
j(θ;
x,y)
本文描述了正則化策略中最常見的一種,引數範數懲罰,並介紹了 l2 和 l1 兩種最常見的範數懲罰策略。
深度學習中的正則化
任何可以使學習演算法有降低泛化誤差意向的改動都是正則化。乙個有效的正則化就是能顯著地降低方差而不過度增加偏差。最好的擬合模型總是乙個適當正則化的大型模型!資料增強是一種便宜且簡單的方法來增加你訓練資料的數量的方法。上面資料增強已經提到,向輸入中注入方差極小的雜訊等價於對權重施加範數懲罰,一般情況下,...
深度學習 正則化
1 為啥l1 更具有稀疏性 兩種解釋 1 從l 1和l2 的 來看,貝葉斯學派認為僅僅使用資料是不夠的,還要加入先驗知識,l1 等於拉普拉斯先驗,l2 等於高斯先驗,為了推導和計算方便,會對分布函式取對數,然後再去優化,最後由於引數考慮了 資料先驗,學到的規則更加接近實際,拉普拉斯密度函式的圖形和表...
深度學習 正則化
了解什麼是過擬合問題,以下面為例,我們能夠看到有兩個類別,藍色是分類曲線模型。模型過擬合是因為模型過於複雜,可以通過對特徵變數係數的調整來避免過擬合,而引入正則化正是為了實現這個目的,具體如何實現將在下一節說明。常見的正則化方法有這幾種 說明 這裡的f 範數指的是frobenius範數,和logis...