過擬合欠擬合

2021-08-17 21:07:00 字數 1221 閱讀 5880

一篇文章,帶你明白什麼是過擬合,欠擬合以及交叉驗證

在本文中也許你會掌握機器學習中最核心的概念:偏差-方差權衡.其主要想法是,你想建立盡可能**準確並且仍能適用於新資料的模型(這是泛化).危險的是,你可以輕鬆的在你制定的資料中建立過度擬合本地噪音的模型,這樣的模型是無用的,並且導致弱泛化能力,因為雜訊是隨機的,故而在每個資料集中是不同的.從本質上講,你希望建立僅捕獲資料集中有用成份的模型.另一方面,泛化能力很好但是對於產生良好**過於僵化的模型是另乙個極端(這稱之為欠擬合).

平衡欠擬合和過擬合之間的相關概念稱為偏差-方差權衡

泛化即是,機器學習模型學習到的概念在它處於學習的過程中時模型沒有遇見過的樣本時候的表現。

好的機器學習模型的模板目標是從問題領域內的訓練資料到任意的資料上泛化效能良好。這讓我們可以在未來對模型沒有見過的資料進行**。

機器學習中防止過擬合的處理方法

當某個模型過度的學習訓練資料中的細節和噪音,以至於模型在新的資料上表現很差,我們稱過擬合發生了。這意味著訓練資料中的噪音或者隨機波動也被當做概念被模型學習了。而問題就在於這些概念不適用於新的資料,從而導致模型泛化效能的變差。

交叉驗證

減少特徵(人工選擇,預留一些特徵。利用演算法選取一些比較好的特徵)

重新清洗資料,導致過擬合的乙個原因也有可能是資料不純導致的,如果出現了過擬合就需要我們重新清洗資料。

欠擬合

首先欠擬合就是模型沒有很好地捕捉到資料特徵,不能夠很好地擬合資料

乙個欠擬合的機器學習模型不是乙個良好的模型並且由於在訓練資料上表現不好這是顯然的。

欠擬合通常不被討論,因為給定乙個評估模型表現的指標的情況下,欠擬合很容易被發現。矯正方法是繼續學習並且試著更換機器學習演算法。雖然如此,欠擬合與過擬合形成了鮮明的對照。

解決方法:

1)新增其他特徵項,有時候我們模型出現欠擬合的時候是因為特徵項不夠導致的,可以新增其他特徵項來很好地解決。例如,「組合」、「泛化」、「相關性」三類特徵是特徵新增的重要手段,無論在什麼場景,都可以照葫蘆畫瓢,總會得到意想不到的效果。除上面的特徵之外,「上下文特徵」、「平台特徵」等等,都可以作為特徵新增的首選項。

2)新增多項式特徵,這個在機器學習演算法裡面用的很普遍,例如將線性模型通過新增二次項或者三次項使模型泛化能力更強。例如上面的的例子。

3)減少正則化引數,正則化的目的是用來防止過擬合的,但是現在模型出現了欠擬合,則需要減少正則化引數

過擬合 欠擬合

無論在機器學習還是深度學習建模當中都可能會遇到兩種最常見結果,一種叫過擬合 over fitting 另外一種叫欠擬合 under fitting 所謂過擬合 over fitting 其實就是所建的機器學習模型或者是深度學習模型在訓練樣本中表現得過於優越,導致在驗證資料集以及測試資料集中表現不佳。...

欠擬合與過擬合

在用機器學習搭建模型時,經常會碰到這樣一種情況,你的模型演算法在樣本資料中匹配的非常完美。但用新資料測試,發現模型結果和實際差距非常大。那麼恭喜你!你掉進了機器學習中常見的乙個大坑 過擬合。什麼是過擬合呢?機器學習本質上是通過建立資料模型,使其和現有資料相吻合,從而找到資料中內在的規律。如下面三張圖...

欠擬合與過擬合

一 1.欠擬合 訓練集上表現很差 這種情況在測試集上也不會好 高偏差 bias 解決辦法 選擇更複雜的網路 有正則項就減小正則項引數等。2.過擬合 訓練集上表現很好,但測試集上表現很差,高方差 variance 解決辦法 採用更多資料 如果有正則化就增加正則化引數,沒有就加上正則化 dropout等...