神經網路模型訓練會出現三種情況:模型過於簡單,模型合理,過擬合。
為避免過擬合問題,常常使用正則化方法
正則化的思想是: 在損失函式中加入刻畫模型複雜程度的指標。
模型優化時需要優化該損失函式:j(
θ)+λ
r(w)
j (θ
)+λr
(w
)其中:j(
θ)j (θ
)為損失函式,θ θ
表示的是乙個神經網路的所有引數,包括權重w w
和偏置b
' role="presentation">bb;
r(w)
r (w
)為模型複雜度函式,一般模型的複雜度只由權重
w w
決定,所以刻畫模型複雜度的函式r(
w)' role="presentation">r(w
)r(w
)有兩種:
聯絡與區別
聯絡:無論哪一種正則化方式,基本思想都是希望通過限制權重的大小,使得模型不能任意擬合訓練資料中的隨機雜訊。
區別:l1正則化會使引數變得更稀疏(即0元素更多),l2不會,因為某引數很小時,平方項可以忽略,模型就不會對其再進行調整。
l1正則化公式不可導,l2正則化公式可導。
實際使用中:
可以將l1正則化和l2正則化分別賦權求和使用:
公式如下: r(
w)=∑
iα|w
i|+(
1−α)
w2i r(w
)=∑i
α|wi
|+(1
−α)w
i2
其中: α α
和(1−α)
( 1−
α)
分別為l1正則化與l2正則化的權重。
神經網路的過擬合overfitting
過擬合 模型在訓練上表現越來越好,但是在未見過的資料上表現不好,缺少泛化能力。機器學習的根本問題在於優化和泛化的問題。優化指在調整模型在訓練集上得到最佳效能,泛化指的是模型在前所未見的資料上的效能好壞。1.最優方法是獲取更多的訓練資料 利用影象增強,將資料進行翻轉旋轉等操作。2.正則化 次優解決方法...
神經網路中的過擬合
過擬合 overfitting 是指在模型引數擬合過程中的問題,由於訓練資料報含抽樣誤差,訓練時,複雜的模型將抽樣誤差也考慮在內,將抽樣誤差也進行了很好的擬合。具體表現就是模型在訓練集上效果好,在測試集上效果差。模型泛化能力弱。1.擬合的模型一般是用來 未知的結果,過擬合雖然在訓練集上效果好,但是在...
神經網路中的過擬合
先說下一般對原始資料的劃分為什麼分為訓練集 驗證集 測試集三個部分?train data的作用是訓練模型,validation data的作用是對模型的超引數進行調節,為什麼不直接在test data上對引數進行調節?因為如果在test data上來調節引數,那麼隨著訓練的進行,我們的網路實際上就是...