神經網路的過擬合問題

2021-08-21 04:44:59 字數 971 閱讀 3312

神經網路模型訓練會出現三種情況:模型過於簡單,模型合理,過擬合。

為避免過擬合問題,常常使用正則化方法

正則化的思想是: 在損失函式中加入刻畫模型複雜程度的指標。

模型優化時需要優化該損失函式:j(

θ)+λ

r(w)

j (θ

)+λr

(w

)其中:j(

θ)j (θ

)為損失函式,θ θ

表示的是乙個神經網路的所有引數,包括權重w w

和偏置b

' role="presentation">bb;

r(w)

r (w

)為模型複雜度函式,一般模型的複雜度只由權重

w w

決定,所以刻畫模型複雜度的函式r(

w)' role="presentation">r(w

)r(w

)有兩種:

聯絡與區別

聯絡:無論哪一種正則化方式,基本思想都是希望通過限制權重的大小,使得模型不能任意擬合訓練資料中的隨機雜訊。

區別:l1正則化會使引數變得更稀疏(即0元素更多),l2不會,因為某引數很小時,平方項可以忽略,模型就不會對其再進行調整。

l1正則化公式不可導,l2正則化公式可導。

實際使用中:

可以將l1正則化和l2正則化分別賦權求和使用:

公式如下: r(

w)=∑

iα|w

i|+(

1−α)

w2i r(w

)=∑i

α|wi

|+(1

−α)w

i2

其中: α α

和(1−α)

( 1−

α)

分別為l1正則化與l2正則化的權重。

神經網路的過擬合overfitting

過擬合 模型在訓練上表現越來越好,但是在未見過的資料上表現不好,缺少泛化能力。機器學習的根本問題在於優化和泛化的問題。優化指在調整模型在訓練集上得到最佳效能,泛化指的是模型在前所未見的資料上的效能好壞。1.最優方法是獲取更多的訓練資料 利用影象增強,將資料進行翻轉旋轉等操作。2.正則化 次優解決方法...

神經網路中的過擬合

過擬合 overfitting 是指在模型引數擬合過程中的問題,由於訓練資料報含抽樣誤差,訓練時,複雜的模型將抽樣誤差也考慮在內,將抽樣誤差也進行了很好的擬合。具體表現就是模型在訓練集上效果好,在測試集上效果差。模型泛化能力弱。1.擬合的模型一般是用來 未知的結果,過擬合雖然在訓練集上效果好,但是在...

神經網路中的過擬合

先說下一般對原始資料的劃分為什麼分為訓練集 驗證集 測試集三個部分?train data的作用是訓練模型,validation data的作用是對模型的超引數進行調節,為什麼不直接在test data上對引數進行調節?因為如果在test data上來調節引數,那麼隨著訓練的進行,我們的網路實際上就是...