產生原因
緩解方法
合適的資料分布+合理的模型複雜性
合理的組合應該是:複雜的資料分布+簡單的模型 或者 簡單的資料分布+複雜的模型
神經網路中的過擬合
原理(或者說思考):
從貝葉斯的角度來說,代價函式可以表示為p(y|w,x)的形式,而正則項則是對引數w做了乙個先驗分布的假設,使得代價函式變成p(y|w,x)p(w)
考慮兩個分布:0均值的高斯分布和0均值的拉普拉斯分布 l
apla
ce:1
2bex
p−|w
|bl ap
lace
:12b
exp−
|w|b
gaussia
n:12
πα‾‾
‾‾√e
xp−w
22α gau
ssia
n:12
παex
p−w2
2α代價函式的對數形式可以寫成 lo
gp(y
|w,x
)p(w
)=lo
gp(y
|w,x
)+lo
gp(w
) log
p(y|
w,x)
p(w)
=log
p(y|
w,x)
+log
p(w)
右邊第一項是原來的對數似然,第二項則可以化成la
plac
e:−1
b|w|
+乙個常
數=−λ
||w|
|1+一
個常數 lap
lace
:−1b
|w|+
乙個常數
=−λ|
|w||
1+乙個
常數gaussi
an:−
12αw
2+乙個
常數=−
λ||w
||2+
乙個常數
g au
ssia
n:−1
2αw2
+乙個常
數=−λ
||w|
|2+一
個常數因為最大化lo
gp(y
|w,x
)p(w
) log
p(y|
w,x)
p(w)
最後都會轉成最小化形式,所以代價函式最後會變成j=
⋆+λ|
|w||
p j=⋆
+λ||
w||p
的形式。
2. 對於l1而言,假設引數服從拉普拉斯分布;而對於l2而言,假設引數服從高斯分布,兩個都是0均值
3. 正則效果和原因
效果:l1範數可以使權值稀疏,方便特徵提取。
l2範數可以防止過擬合,提公升模型的泛化能力,使w趨於0(或者說約束在乙個很小的範圍內)
為什麼正則會達到這個效果呢?過擬合可以說明用了複雜的模型。複雜模型在引數上的表現可以分為:引數w全不為0,說明所有特徵都用到了即資料處於乙個複雜的特徵空間中;引數的波動範圍大,考慮極端一點的例子,某個模型把異常點也擬合進來,使得資料樣本在較小的區間值發生了很大的波動,即該區間內的導數非常大(w非常大),所以乙個好的模型的引數波動範圍不會很大。
從引數的角度來說,解決過擬合有兩種思路:引數存在部分0值(稀疏權值,l1),引數約束在很小的範圍內(接近於0,l2)
然後在實際中,w不一定服從高斯分布或者拉普拉斯分布(也有種說法是不加正則項的化w服從的是均勻分布),而正則項的引入就是要我們強行讓我們預想的w去服從高斯分布或者拉普拉斯分布。
對於高斯分布來說,其均值為0,那麼隨著懲罰項
λ λ
而言,λ λ
是和方差
α α
成反比 隨著λ
λ
變大,w都接近於0,這就是l2範數可以防止過擬合,提公升模型的泛化能力,使w趨於0的原因
而對於l1而言,有個結論:任何的規則化運算元,如果他在w_i=0的地方不可微,並且可以分解為乙個「求和」的形式,那麼這個規則化運算元就可以實現稀疏。
然後lasso的稀疏性解釋在於,我們求解w的過程實際上是計算mi
n(l+
...l
ambd
a||w
||p)
m in
(l+.
..la
mbda
||w|
|p)的形式
也就是每步迭代中計算對w求偏導,
兩種 regularization 能不能把最優的 w 變成 0,取決於原先的l在 0 點處的導數。如果本來導數不為 0,那麼施加 l2 regularization 後導數依然不為 0,最優的 x 也不會變成 0。而施加 l1 regularization 時,只要 regularization 項的係數 lambda 大於原先費用函式在 0 點處的導數的絕對值,w = 0 就會變成乙個極小值點。
w<0 時 l+
λ|w|
l +λ
|w|的導數要小於0(函式減),同理w>0時導數》0 (函式增)
w從左邊趨近於0 時,λ|
w|λ |w
|的導數是−λ
−
λ,假設此時 l 的導數為 la ,必須有 la
−λ<
0 la−
λ<0,
λ>la
λ
>la
,同理w從右邊趨近於0時,必須有 lb
+λ>
0 lb+
λ>0,即
λ>−l
b λ
>−l
b,即當
λ λ
大於l在0點附近的絕對值,那麼對應的w就必須為0,起到乙個稀疏的作用。
什麼是欠擬合現象 過擬合 欠擬合與正則化
在機器學習模型的訓練過程中,經常會發生過擬合 overfitting 欠擬合 underfitting 的現象。那這二者究竟為何物呢?過擬合,通俗點說,就是我們的模型對資料模擬的太好了,訓練集中的資料幾乎都被完美 有人就說了,我 的完美也有錯嗎?是的,你有錯。因為我們的目標並不是看你訓練集中的資料 ...
過擬合欠擬合
一篇文章,帶你明白什麼是過擬合,欠擬合以及交叉驗證 在本文中也許你會掌握機器學習中最核心的概念 偏差 方差權衡.其主要想法是,你想建立盡可能 準確並且仍能適用於新資料的模型 這是泛化 危險的是,你可以輕鬆的在你制定的資料中建立過度擬合本地噪音的模型,這樣的模型是無用的,並且導致弱泛化能力,因為雜訊是...
過擬合 欠擬合
無論在機器學習還是深度學習建模當中都可能會遇到兩種最常見結果,一種叫過擬合 over fitting 另外一種叫欠擬合 under fitting 所謂過擬合 over fitting 其實就是所建的機器學習模型或者是深度學習模型在訓練樣本中表現得過於優越,導致在驗證資料集以及測試資料集中表現不佳。...