什麼是過擬合？

過擬合很好理解，今天在知乎上看到eyounx這麼解釋，挺形象的，大致是這麼個說法:在機器學習中，我們提高了在訓練資料集上的表現力時，在測試資料集上的表現力反而下降了，這就是過擬合。

過擬合發生的本質原因，是由於監督學習的不適定性。比如我們再學習線性代數時，給出n個線性無關的方程，我們可以解出來n個變數，但是肯定解不出來n+1個變數。在機器學習中，如果資料（對應於方程）遠小於模型空間（對應求解的變數），那麼，就容易發生過擬合現象。

所以說，有限的訓練資料並不能反映出乙個模型的好壞，然而我們卻不得不根據這有限個資料來挑選模型。因此，我們完全有可能挑選出在訓練資料上表現很好，但是在測試集上表現很差的模型。因為在進行測試之前，我們並無法知道模型在測試資料上的表現。如果模型空間很大，也就是說有很多模型供我們挑選，那麼，我們挑選對的模型的概率就會下降。但與此同時，如果想在訓練集上表現良好，最直接的辦法就是在足夠大的模型空間中挑選模型，如果模型空間太小，我們就很難挑選出將訓練集擬合的很好的模型。綜上所述，如果想要擬合好訓練資料，就需要足夠大的空間模型。但是，如果模空間太大，挑選到好的模型的概率就會下降。因此，就會出現過擬合現象。

對於過擬合現象，有多種解釋。

（1）經典的bias-variance decomposition.比較直觀

（2）pac-learning泛化界解釋。我個人更傾向這個

（3）bayes先驗解釋。

什麼是過擬合？

什麼是過擬合

什麼是欠擬合現象什麼是過擬合？什麼是欠擬合？

什麼是欠擬合現象過擬合欠擬合與正則化

什麼是過擬合？

什麼是過擬合

什麼是欠擬合現象 什麼是過擬合？什麼是欠擬合？

什麼是欠擬合現象 過擬合 欠擬合與正則化

相關推薦

什麼是欠擬合現象什麼是過擬合？什麼是欠擬合？

什麼是欠擬合現象過擬合欠擬合與正則化