機器學習 過擬合 Overfitting

2021-08-08 01:48:33 字數 459 閱讀 8422

在統計學和機器學習中,overfitting一般在描述統計學模型隨機誤差或噪音時用到。它通常發生在模型過於複雜的情況下,如引數過多等。overfitting會使得模型的**效能變弱,並且增加資料的波動性。

看下圖:

綠線表示overfitting的模型,黑線表示正則化模型。雖然綠線最符合訓練資料,但它太依賴於它,並且與黑線相比,新的未看見的資料可能具有更高的錯誤率。說白了, 就是機器學習模型於自信。 已經到了自負的階段了。說到自負的壞處, 就是在自己的小圈子裡表現非凡, 不過在現實的大圈子裡卻往往處處碰壁。所以在這裡可以自負和過擬合畫上等號。

underfitting發生在統計模型和機器學習演算法無法捕獲資料的基本趨勢時例如:當擬合乙個線性模型到非線性資料時。就會發生underfitting,模型的**效能就會很差了。

wikipedia 的overfitting解釋

深度學習揭秘之防止過擬合(overfitting)

神經網路通過大量的引數模擬各種繁多的任務,並能擬合各種複雜的資料集。這種獨特的能力使其能夠在許多難以在 傳統 機器學習時代取得進展的領域 例如影象識別 物體檢測或自然語言處理等領域表現優異。然而,有時候,最大的優點也是潛在的弱點。模型在學習過程時,如果缺乏控制可能會導致過擬合 overfitting...

機器學習過擬合問題

過擬合的定義 在對已知的資料集合進行學習的時候,我們選擇適應度最好的模型最為最終的結果。雖然我們選擇的模型能夠很好的解釋訓練資料集合,但卻不一定能夠很好的解釋測試資料或者其他資料,也就是說這個模型過於精細的刻畫了訓練資料,對於測試資料或者其他新的資料泛華能力不強。發生過擬合的原因 1 使用過於複雜的...

機器學習 過擬合問題

引數估計角度 訓練集是資料生成分布的取樣,訓練集所估計的經驗分布是資料生成分布的近似,由於訓練集的有限性,近似的分布在細節上與資料生成分布存在著差異。過擬合是指模型錯把訓練集自身的細節,當作資料生成分布的一般性質來學習,從而導致模型泛化效能的降低。訓練集上的經驗誤差在下降 偏差小 驗證集上的誤差 泛...