過擬合問題和解決方案

2021-10-22 20:05:51 字數 617 閱讀 6421

模型越複雜,模型對訓練集的測試效果越好,但對測試集的測試效果很差,此時稱為過擬合。

如樣本是9個點,當多項式回歸是2次或3次時,擬合效果不錯但仍有誤差; 當多項式是9次時,可以計算出一條曲線完美通過所有樣本點,但這種方式顯然把樣本的噪音全部擬合出來了,模型放到訓練集時效果很差。

對此,有正則化(加懲罰項)和交叉驗證兩種方法來避免過擬合。

正則化假設有效的模型不會太複雜(奧卡姆剃刀定律),在經驗風險後面加上乙個懲罰項,得到結構風險表示式。在多項式回歸中,懲罰項可以是引數向量的l0, l1, l2範數。

記住該公式其他公式都是該公式的引申。

l-0範數:用來統計向量中非零元素的個數。

l-1範數:向量中所有元素的絕對值之和。可用於優化中去除沒有取值的資訊,又稱稀疏規則運算元。

l-2範數:典型應用——歐式距離。可用於優化正則化項,避免過擬合。

l-∞範數:計算向量中的最大值。

s折交叉驗證是指,將資料切分為s份,任取其中乙份作為測試集,其他s-1份左右訓練集,進行訓練和測試。 上述過程可以重複s次(取遍所有測試集),最後綜合s次的結果得到最優的模型。

過擬合解決方案

方法一 儘量減少選取變數的數量 具體而言,我們可以人工檢查每一項變數,並以此來確定哪些變數更為重要,然後,保留那些更為重要的特徵變數。至於,哪些變數應該捨棄,我們以後在討論,這會涉及到模型選擇演算法,這種演算法是可以自動選擇採用哪些特徵變數,自動捨棄不需要的變數。這類做法非常有效,但是其缺點是當你捨...

過擬合(原因 解決方案 原理)

標準定義 給定乙個假設空間h,乙個假設h屬於h,如果存在其他的假設h 屬於h,使得在訓練樣例上h的錯誤率比h 小,但在整個例項分布上h 比h的錯誤率小,那麼就說假設h過度擬合訓練資料。1 建模樣本抽取錯誤,包括 但不限於 樣本數量太少,抽樣方法錯誤,抽樣時沒有足夠正確考慮業務場景或業務特點,等等導致...

過擬合解決方案之正則化

1.過擬合問題 對於過擬合問題,通常原因是模型選擇太過複雜,也有可能是訓練資料太少。對於模型太複雜的情況,我們一般有如下考慮 一是通過分析刪除部分特徵 比如重複多餘的特徵或者對輸出值貢獻不太大的特徵 但是這樣有可能會損失一部分資訊。所以,我們可以通過正則化的方法來降低引數值,從而避免過擬合問題。對於...