過擬合(overfitting
)是指在模型引數擬合過程中的問題,由於訓練資料報含抽樣誤差,訓練時,複雜的模型將抽樣誤差也考慮在內,將抽樣誤差也進行了很好的擬合。
具體表現就是最終模型在訓練集上效果好,在測試集上效果差,模型泛化能力弱。
抽樣誤差是指由於隨機抽樣的偶然因素使樣本各單位的結構不足以代表總體各單位的結構,而引起抽樣指標和全域性指標的絕對離差。必須指出,抽樣誤差不同於登記誤差,登記誤差是在調查過程中由於觀察、登記、測量、計算上的差錯所引起的誤差,是所有統計調查都可能發生的。抽樣誤差不是由調查失誤所引起的,而是隨機抽樣所特有的誤差。
(1)在對模型進行訓練時,有可能遇到訓練資料不夠,即訓練資料無法對整個資料的分布進行估計的時候;
(2)權值學習迭代次數足夠多(overtraining
),擬合了訓練資料中的雜訊和訓練樣例中沒有代表性的特徵;
通過上圖可以看出,隨著模型訓練的進行,模型的複雜度會增加,此時模型在訓練資料集上的訓練誤差會逐漸減小,但是在模型的複雜度達到一定程度時,模型在驗證集上的誤差反而隨著模型的複雜度增加而增大。此時便發生了過擬合,即模型的複雜度公升高,但是該模型在除訓練集之外的資料集上卻不work。
(1)early stopping:
對模型進行訓練的過程即是對模型的引數進行學習更新的過程,這個引數學習的過程往往會用到一些迭代方法,如梯度下降(gradient descent
)學習演算法。early stopping
便是一種迭代次數截斷的方法來防止過擬合的方法,即在模型對訓練資料集迭代收斂之前停止迭代來防止過擬合。
early stopping
方法的具體做法是,在每乙個epoch
結束時(乙個epoch
集為對所有的訓練資料的一輪遍歷)計算validation data
的accuracy
,當accuracy
不再提高時,就停止訓練。這種做法很符合直觀感受,因為accurary
都不再提高了,在繼續訓練也是無益的,只會提高訓練的時間。那麼該做法的乙個重點便是怎樣才認為validation accurary
不再提高了呢?並不是說validation accuracy
一降下來便認為不再提高了,因為可能經過這個epoch
後,accuracy
降低了,但是隨後的epoch
又讓accuracy
又上去了,所以不能根據一兩次的連續降低就判斷不再提高。一般的做法是,在訓練的過程中,記錄到目前為止最好的validation accuracy
,當連續10次epoch
(或者更多次)沒達到最佳accuracy
時,則可以認為accuracy
不再提高了。此時便可以停止迭代了(early stopping
)。這種策略也稱為「no-improvement-in-n」
,n
即epoch
的次數,可以根據實際情況取,如10、20、30……
(2)資料集擴增:
這是解決過擬合最有效的方法,只要給足夠多的資料,讓模型看見盡可能多的例外情況,它就會不斷修正自己,從而得到更好的結果:
(3)正則化(regularization):
原理同上,但是這類方法直接將權值的大小加入到cost
裡,在訓練的時候限制權值變大。以l2 regularization
為例:
訓練過程需要降低整體的cost
,這時候,一方面能降低實際輸出與樣本之間的誤差c
0c_0
c0 ,也能降低權值大小。
(4)dropout:
在訓練時,每次隨機(如50%概率)忽略隱層的某些節點;這樣,我們相當於隨機從2^h
個模型中取樣選擇模型;同時,由於每個網路只見過乙個訓練資料(每次都是隨機的新網路),所以類似bagging
的做法,這就是我為什麼將它分類到結合多種模型中;
此外,而不同模型之間權值共享(共同使用這h個神經元的連線權值),相當於一種權值正則方法,實際效果比l2 regularization
更好。
深度學習中過擬合與防止過擬合的方法
1.什麼是過擬合?過擬合 overfitting 是指在模型引數擬合過程中的問題,由於訓練資料報含抽樣誤差,訓練時,複雜的模型將抽樣誤差也考慮在內,將抽樣誤差也進行了很好的擬合。具體表現就是最終模型在訓練集上效果好 在測試集上效果差。模型泛化能力弱。2.過擬合產生的原因?1 在對模型進行訓練時,有可...
深度學習中過擬合與防止過擬合的方法
過擬合 overfitting 是指在模型引數擬合過程中的問題,由於訓練資料報含抽樣誤差,訓練時,複雜的模型將抽樣誤差也考慮在內,將抽樣誤差也進行了很好的擬合。具體表現就是最終模型在訓練集上效果好,在測試集上效果差,模型泛化能力弱。1 在對模型進行訓練時,有可能遇到訓練資料不夠,即訓練資料無法對整個...
深度學習 有效防止過擬合
為了得到一致假設而使假設變得過度複雜稱為過擬合 overfitting 過擬合表現在訓練好的模型在訓練集上效果很好,但是在測試集上效果差。也就是說模型的泛化能力弱。在物體分類 object recognition 問題中,資料擴增已經成為一項特殊的有效的技術。物體在影象中的位置 姿態 尺度,整體敏感...