什麼是過擬合

2021-08-15 16:37:34 字數 662 閱讀 2272

過擬合很好理解,今天在知乎上看到eyounx這麼解釋,挺形象的,大致是這麼個說法:在機器學習中,我們提高了在訓練資料集上的表現力時,在測試資料集上的表現力反而下降了,這就是過擬合。

過擬合發生的本質原因,是由於監督學習的不適定性。比如我們再學習線性代數時,給出n個線性無關的方程,我們可以解出來n個變數,但是肯定解不出來n+1個變數。在機器學習中,如果資料(對應於方程)遠小於模型空間(對應求解的變數),那麼,就容易發生過擬合現象。

所以說,有限的訓練資料並不能反映出乙個模型的好壞,然而我們卻不得不根據這有限個資料來挑選模型。因此,我們完全有可能挑選出在訓練資料上表現很好,但是在測試集上表現很差的模型。因為在進行測試之前,我們並無法知道模型在測試資料上的表現。如果模型空間很大,也就是說有很多模型供我們挑選,那麼,我們挑選對的模型的概率就會下降。但與此同時,如果想在訓練集上表現良好,最直接的辦法就是在足夠大的模型空間中挑選模型,如果模型空間太小,我們就很難挑選出將訓練集擬合的很好的模型。綜上所述,如果想要擬合好訓練資料,就需要足夠大的空間模型。但是,如果模空間太大,挑選到好的模型的概率就會下降。因此,就會出現過擬合現象。

對於過擬合現象,有多種解釋。

(1)經典的bias-variance decomposition.比較直觀

(2)pac-learning泛化界解釋。我個人更傾向這個

(3)bayes先驗解釋。

什麼是過擬合?

過擬合很好理解,今天在知乎上看到eyounx這麼解釋,挺形象的,大致是這麼個說法 在機器學習中,我們提高了在訓練資料集上的表現力時,在測試資料集上的表現力反而下降了,這就是過擬合。過擬合發生的本質原因,是由於監督學習的不適定性。比如我們再學習線性代數時,給出n個線性無關的方程,我們可以解出來n個變數...

什麼是欠擬合現象 什麼是過擬合?什麼是欠擬合?

過擬合 1 簡單理解就是訓練樣本的得到的輸出和期望輸出基本一致,但是樣本輸出和測試樣本的期望輸出相差卻很大 2 為了得到一致假設而使假設變得過度複雜稱為過擬合。想像某種學習產生了乙個過擬合的分類器,這個分類器能夠百分之百的正確分類樣本資料 即再拿樣本中的文件來給它,它絕對不會分錯 但也就為了能夠對樣...

什麼是欠擬合現象 過擬合 欠擬合與正則化

在機器學習模型的訓練過程中,經常會發生過擬合 overfitting 欠擬合 underfitting 的現象。那這二者究竟為何物呢?過擬合,通俗點說,就是我們的模型對資料模擬的太好了,訓練集中的資料幾乎都被完美 有人就說了,我 的完美也有錯嗎?是的,你有錯。因為我們的目標並不是看你訓練集中的資料 ...