左圖是高偏差,右圖是高方差,中間是 just right。
我們假設下面的網路是乙個過擬合的網路,我們新增正則項,可以避免資料權值矩陣過大,這就是弗羅貝尼烏斯範數。那麼為什麼弗羅貝尼烏斯範數可以減少過擬合呢?
直觀上理解就是如果正則化$\lambda$設定得足夠大,權重矩陣w被設定為接近於0的值,就是把多隱藏單元的權重設為 0,於是基本上消除了這些隱藏單元的許多影響。如果是這種情況,這個被大大簡化了的神經網路會變成乙個很小的網路,小到如同乙個邏輯回歸單元,可是深度卻很大,它會使這個網路從過度擬合的狀態更接近左圖的高偏差狀態。但是$\lambda$會存在乙個中間值, 於是會有乙個接近「just right」的中間狀態。
直觀上理解就是如果正則化$\lambda$設定得足夠大,權重矩陣w被設定為接近於0的值。實際上是不會發生這種情況的,我們嘗試消除或至少減少許多隱藏單元的影響,最終這個網路會變得更簡單,這個神經網路越來越接近邏輯回歸,我們直覺上認為大量隱藏單元被完全消除了,其實不然,實際上是該神經網路的所有隱藏單元依然存在,但是它們的影響變得更小了。神經網路變得更簡單了,貌似這樣更不容易發生過擬合。
為什麼正則化可以防止過擬合?
為什麼正則化有利於預防過擬合呢?為什麼它可以減少方差問題?我們通過兩個例子來直觀體會一下。左圖是高偏差,右圖是高方差,中間是just right,這幾張圖我們在前面課程中看到過。直觀上理解就是如果正則化引數設定得足夠大,權重矩陣被設定為接近於0的值,直觀理解就是把多隱藏單元的權重設為0,於是基本上消...
為什麼正則化可以防止過擬合?
加上正則化項之後的損失函式 j w l b l 1m i 1 ml y y 2m l 1 l w l f2j w b frac sum ml y y frac sum l w 2 f j w l b l m 1 i 1 m l y y 2m l 1 l w l f2 f表示frobenius範數 縮...
為什麼正則化能減少模型過擬合程度
如何才能直觀解釋正則化減少過擬合的原理?以下圖為例。high bias 高偏差 就是欠擬合,high variance 高方差 就是過擬合。為了將過擬合的模型變為正好 just right 從圖中直觀上來看,只需要減小高次項的權重。這就是降低過擬合的直觀理解。從數學上,我們用正則化來降低模型的過擬合...