過擬合很好理解,今天在知乎上看到eyounx這麼解釋,挺形象的,大致是這麼個說法:在機器學習中,我們提高了在訓練資料集上的表現力時,在測試資料集上的表現力反而下降了,這就是過擬合。
過擬合發生的本質原因,是由於監督學習的不適定性。比如我們再學習線性代數時,給出n個線性無關的方程,我們可以解出來n個變數,但是肯定解不出來n+1個變數。在機器學習中,如果資料(對應於方程)遠小於模型空間(對應求解的變數),那麼,就容易發生過擬合現象。
所以說,有限的訓練資料並不能反映出乙個模型的好壞,然而我們卻不得不根據這有限個資料來挑選模型。因此,我們完全有可能挑選出在訓練資料上表現很好,但是在測試集上表現很差的模型。因為在進行測試之前,我們並無法知道模型在測試資料上的表現。如果模型空間很大,也就是說有很多模型供我們挑選,那麼,我們挑選對的模型的概率就會下降。但與此同時,如果想在訓練集上表現良好,最直接的辦法就是在足夠大的模型空間中挑選模型,如果模型空間太小,我們就很難挑選出將訓練集擬合的很好的模型。綜上所述,如果想要擬合好訓練資料,就需要足夠大的空間模型。但是,如果模空間太大,挑選到好的模型的概率就會下降。因此,就會出現過擬合現象。
對於過擬合現象,有多種解釋。
(1)經典的bias-variance decomposition.比較直觀
(2)pac-learning泛化界解釋。我個人更傾向這個
(3)bayes先驗解釋。
什麼是過擬合
過擬合很好理解,今天在知乎上看到eyounx這麼解釋,挺形象的,大致是這麼個說法 在機器學習中,我們提高了在訓練資料集上的表現力時,在測試資料集上的表現力反而下降了,這就是過擬合。過擬合發生的本質原因,是由於監督學習的不適定性。比如我們再學習線性代數時,給出n個線性無關的方程,我們可以解出來n個變數...
什麼是欠擬合現象 什麼是過擬合?什麼是欠擬合?
過擬合 1 簡單理解就是訓練樣本的得到的輸出和期望輸出基本一致,但是樣本輸出和測試樣本的期望輸出相差卻很大 2 為了得到一致假設而使假設變得過度複雜稱為過擬合。想像某種學習產生了乙個過擬合的分類器,這個分類器能夠百分之百的正確分類樣本資料 即再拿樣本中的文件來給它,它絕對不會分錯 但也就為了能夠對樣...
什麼是欠擬合現象 過擬合 欠擬合與正則化
在機器學習模型的訓練過程中,經常會發生過擬合 overfitting 欠擬合 underfitting 的現象。那這二者究竟為何物呢?過擬合,通俗點說,就是我們的模型對資料模擬的太好了,訓練集中的資料幾乎都被完美 有人就說了,我 的完美也有錯嗎?是的,你有錯。因為我們的目標並不是看你訓練集中的資料 ...