資料擴增中的逆向思維解決過擬合問題

2021-10-06 02:44:43 字數 550 閱讀 7577

常規在機器學習與深度學習模型訓練過程中,經常會對較少的類別進行擴增。資料擴增一定程度上可以緩解類別的不平衡性,也可以擴充套件樣本的多樣性。

在機器學習訓練中,還有乙個很難繞開的問題是 【過擬合】,過擬合的主要原因是學習到了一些 「假模式」(這也是因果律被詬病的主要原因之一);比如在進行分類的時候,狗狗類別的影象,狗狗總是叼著乙個大球,而其他類別的影象中,並沒有類似的大球。那麼黑盒訓練過程中,很可能把這個大球與狗狗這個類別繫結起來。這個球就是 「假模式」。這個可能造成的後果是,如果有一張影象只出現了大球,而沒有出現狗狗,那麼分類器也將其誤判為狗狗。

乙個似乎可行的逆向思維解決這個問題擴增方式是:把與我們 目標關注點 頻繁共現 「假模式」進行擴增,讓它在每個類別中都出現(比如把球摳出來貼到其他各個類別中),在訓練過程中先驗地告訴分類器,這種模式是不靠譜的,不要把關注點浪費在這些地方了。

所以,這給我們的乙個啟發是:1)我們對資料分析時,可以有針對性地找出類別中有沒有明顯的 「假模式」,這個需要對資料進行充分理解。先看資料,提出假設,然後想從統計的範疇證明自己的假設。2)如果假設成立,那麼想辦法通過擴增的方式在各個類別中模糊化這種假模式。

過擬合的解決方法

overfitting就是過擬合,其直觀的表現如下圖所示,隨著訓練過程的進行,模型複雜度增加,在training data上的error漸漸減小,但是在驗證集上的error卻反而漸漸增大 因為訓練出來的網路過擬合了訓練集,對訓練集外的資料卻不work,這稱之為泛化 generalization 效能...

解決過擬合的最終方法

今天有同學提問 老師,用預訓練網路過擬合,微調,降低學習率以後,還是過擬合。訓練集在0.99或者1,測試集在0.95上不去了,測試集的loss也大得多。還有什麼方法能再提高測試集的準確率或者減小過擬合嗎?這裡可以看到這位同學已經探索了一些方法,可以繼續使用dropout和正則化來抑制過擬合問題,但是...

深度學習中過擬合與防止過擬合的方法

1.什麼是過擬合?過擬合 overfitting 是指在模型引數擬合過程中的問題,由於訓練資料報含抽樣誤差,訓練時,複雜的模型將抽樣誤差也考慮在內,將抽樣誤差也進行了很好的擬合。具體表現就是最終模型在訓練集上效果好 在測試集上效果差。模型泛化能力弱。2.過擬合產生的原因?1 在對模型進行訓練時,有可...