機器學習基礎 過擬合,欠擬合

2021-10-04 07:29:54 字數 802 閱讀 7928

最左邊屬於欠擬合,最右邊過擬合

欠擬合是對資料擬合的不好,在訓練集和測試集上的表現都很差。

過擬合在訓練集上表現得很好,在測試集上表現得不好

欠擬合原因:

模型過於簡單————使用更複雜的模型,整合

訓練次數不夠————增加訓練次數

過擬合原因:

模型過於複雜

訓練資料少

資料中雜訊多

解決過擬合方法:

簡化模型

減少模型引數:對於決策樹可以剪枝

對於神經網路可以減少層數,每層的神經元數目;使用dropout

進行資料清洗,減少雜訊

使用更多資料

上取樣,gan生成資料,對於影象資料可以對其旋轉,平移,縮放,裁剪,改變解析度,對比度,亮度等。增加隨機雜訊

提前停止訓練

模型訓練的時候,驗證集誤差達到最低就提前停止訓練

多模型投票

投票法可以規避過擬合,即使有一兩個過擬合的模型,但是綜合起來可以降低過擬合,起到正則化的作用。

正則化

l1,l2,l0正則化(後續學習)

針對dnn可以batch norm等等

機器學習基礎學習筆記(三)過擬合 欠擬合

以下內容均為https的學習筆記。上節說了經驗風險最小化準則 erm 過擬合與欠擬合理論均與其有關。所得 我們可以將機器學習看作乙個從有限 高維 有雜訊的資料上得到更一般性規律的泛化問題。簡單說 過擬合表現在對訓練資料依賴產生過度自信的效能,但對於測試集則能力不足,是 紙上談兵 根據大數定理可知,當...

過擬合欠擬合

一篇文章,帶你明白什麼是過擬合,欠擬合以及交叉驗證 在本文中也許你會掌握機器學習中最核心的概念 偏差 方差權衡.其主要想法是,你想建立盡可能 準確並且仍能適用於新資料的模型 這是泛化 危險的是,你可以輕鬆的在你制定的資料中建立過度擬合本地噪音的模型,這樣的模型是無用的,並且導致弱泛化能力,因為雜訊是...

過擬合 欠擬合

無論在機器學習還是深度學習建模當中都可能會遇到兩種最常見結果,一種叫過擬合 over fitting 另外一種叫欠擬合 under fitting 所謂過擬合 over fitting 其實就是所建的機器學習模型或者是深度學習模型在訓練樣本中表現得過於優越,導致在驗證資料集以及測試資料集中表現不佳。...