機器學習問題中過擬合出現的原因及解決方案

2021-08-22 16:16:33 字數 572 閱讀 4271

如果一味的追求模型的**能力,所選的模型複雜度就會過高,這種現象稱為過擬合。模型表現出來的就是訓練模型時誤差很小,但在測試的時候誤差很大。

一、產生的原因:

1.樣本資料問題

樣本資料太少

樣本抽樣不符合業務場景

樣本中的噪音資料影響

2.模型問題

模型複雜度高,引數太多

決策樹模型沒有剪紙

模型訓練過程中權重迭代次數太多,擬合了資料中的雜訊資料

二、解決方案

1.樣本資料方面

增加樣本數量

對樣本資料進行降維

新增驗證資料

抽樣方法要符合業務場景

清洗雜訊資料

2.模型方面

控制模型複雜度,優先選擇複雜度簡單的模型,或者融合模型

利用先驗知識新增l1,l2正則項

進行交叉驗證

不要過度訓練,最優化求解,收斂之前停止迭代

如果是決策樹模型進行減值

權重衰減

什麼是過擬合?出現原因?怎麼解決?

為了得到一致假設而使假設變得過度複雜稱為過擬合 overfitting 過擬合表現在訓練好的模型在訓練集上效果很好,但是在測試集上效果差。訓練集的數量級和模型的複雜度不匹配。訓練集的數量要小於模型的複雜度 訓練集和測試集特徵分布不一致 樣本裡的噪音資料干擾過大,大到模型過分記住了噪音特徵,反而忽略了...

機器學習過擬合問題

過擬合的定義 在對已知的資料集合進行學習的時候,我們選擇適應度最好的模型最為最終的結果。雖然我們選擇的模型能夠很好的解釋訓練資料集合,但卻不一定能夠很好的解釋測試資料或者其他資料,也就是說這個模型過於精細的刻畫了訓練資料,對於測試資料或者其他新的資料泛華能力不強。發生過擬合的原因 1 使用過於複雜的...

機器學習 過擬合問題

引數估計角度 訓練集是資料生成分布的取樣,訓練集所估計的經驗分布是資料生成分布的近似,由於訓練集的有限性,近似的分布在細節上與資料生成分布存在著差異。過擬合是指模型錯把訓練集自身的細節,當作資料生成分布的一般性質來學習,從而導致模型泛化效能的降低。訓練集上的經驗誤差在下降 偏差小 驗證集上的誤差 泛...