如果一味的追求模型的**能力,所選的模型複雜度就會過高,這種現象稱為過擬合。模型表現出來的就是訓練模型時誤差很小,但在測試的時候誤差很大。
一、產生的原因:
1.樣本資料問題
樣本資料太少
樣本抽樣不符合業務場景
樣本中的噪音資料影響
2.模型問題
模型複雜度高,引數太多
決策樹模型沒有剪紙
模型訓練過程中權重迭代次數太多,擬合了資料中的雜訊資料
二、解決方案
1.樣本資料方面
增加樣本數量
對樣本資料進行降維
新增驗證資料
抽樣方法要符合業務場景
清洗雜訊資料
2.模型方面
控制模型複雜度,優先選擇複雜度簡單的模型,或者融合模型
利用先驗知識新增l1,l2正則項
進行交叉驗證
不要過度訓練,最優化求解,收斂之前停止迭代
如果是決策樹模型進行減值
權重衰減
什麼是過擬合?出現原因?怎麼解決?
為了得到一致假設而使假設變得過度複雜稱為過擬合 overfitting 過擬合表現在訓練好的模型在訓練集上效果很好,但是在測試集上效果差。訓練集的數量級和模型的複雜度不匹配。訓練集的數量要小於模型的複雜度 訓練集和測試集特徵分布不一致 樣本裡的噪音資料干擾過大,大到模型過分記住了噪音特徵,反而忽略了...
機器學習過擬合問題
過擬合的定義 在對已知的資料集合進行學習的時候,我們選擇適應度最好的模型最為最終的結果。雖然我們選擇的模型能夠很好的解釋訓練資料集合,但卻不一定能夠很好的解釋測試資料或者其他資料,也就是說這個模型過於精細的刻畫了訓練資料,對於測試資料或者其他新的資料泛華能力不強。發生過擬合的原因 1 使用過於複雜的...
機器學習 過擬合問題
引數估計角度 訓練集是資料生成分布的取樣,訓練集所估計的經驗分布是資料生成分布的近似,由於訓練集的有限性,近似的分布在細節上與資料生成分布存在著差異。過擬合是指模型錯把訓練集自身的細節,當作資料生成分布的一般性質來學習,從而導致模型泛化效能的降低。訓練集上的經驗誤差在下降 偏差小 驗證集上的誤差 泛...