過擬合(原因 解決方案 原理)

2021-08-08 19:38:51 字數 1623 閱讀 5816

標準定義:給定乙個假設空間h,乙個假設h屬於h,如果存在其他的假設h』屬於h,使得在訓練樣例上h的錯誤率比h』小,但在整個例項分布上h』比h的錯誤率小,那麼就說假設h過度擬合訓練資料。

(1)建模樣本抽取錯誤,包括(但不限於)樣本數量太少,抽樣方法錯誤,抽樣時沒有足夠正確考慮業務場景或業務特點,等等導致抽出的樣本資料不能有效足夠代表業務邏輯或業務場景; 

(2)樣本裡的噪音資料干擾過大,大到模型過分記住了噪音特徵,反而忽略了真實的輸入輸出間的關係; 

(3)建模時的「邏輯假設」到了模型應用時已經不能成立了。任何**模型都是在假設的基礎上才可以搭建和應用的,常用的假設包括:假設歷史資料可以推測未來,假設業務環節沒有發生顯著變化,假設建模資料與後來的應用資料是相似的,等等。如果上述假設違反了業務場景的話,根據這些假設搭建的模型當然是無法有效應用的。 

(4)引數太多、模型複雜度高

(5)決策樹模型。如果我們對於決策樹的生長沒有合理的限制和修剪的話,決策樹的自由生長有可能每片葉子裡只包含單純的事件資料(event)或非事件資料(no event),可以想象,這種決策樹當然可以完美匹配(擬合)訓練資料,但是一旦應用到新的業務真實資料時,效果是一塌糊塗。 

(6)神經網路模型。 

a.由於對樣本資料,可能存在隱單元的表示不唯一,即產生的分類的決策面不唯一.隨著學習的進行, bp演算法使權值可能收斂過於複雜的決策面,並至極致. 

b.權值學習迭代次數足夠多(overtraining),擬合了訓練資料中的雜訊和訓練樣例中沒有代表性的特徵.

(1)權值衰減. 主要應用在神經網路模型中

它在每次迭代過程中以某個小因子降低每個權值,這等效於修改e的定義,加入乙個與網路權值的總量相應的 

懲罰項,此方法的動機是保持權值較小,避免weight decay,從而使學習過程向著複雜決策面的反方向偏。

(2)適當的stopping criterion

在二次誤差函式的情況下,關於早停止和權值衰減類似結果的原因說明

。橢圓給出了常數誤差函式的輪廓線,wml表示誤差函式的最小值。如果權向量的起始點為原點,按照區域性負梯度的方向移動,那麼它會沿著曲線給出的路徑移動。通過對訓練過程早停止,我們找到了乙個權值向量w。定性地說,它類似於使用檢點的權值衰減正則化項,然後最小化正則化誤差函式的方法得到的權值。 

(3)驗證資料

乙個最成功的方法是在訓練資料外再為演算法提供一套驗證資料,應該使用在驗證集合上產生最小誤差 

的迭代次數,不是總能明顯地確定驗證集合何時達到最小誤差. 

(4)交叉驗證

交叉驗證方法在可獲得額外的資料提供驗證集合時工作得很好,但是小訓練集合的過度擬合問題更為嚴重. 

(5)新增正則項

。l1正則更加容易產生稀疏解、l2正則傾向於讓引數w趨向於0. 

(6)針對樹模型

a.在樹過於大之前便停止生長

每個葉中至少需要多少個資料(threshold) 

b.等樹生長到足夠大之後進行修剪

修剪枝葉,直到任何改動都會降低正確率

(1)增加樣本的全面性和數量; 

(2)控制模型的複雜度; 

(3)不要過度訓練 

(4)模型融合本質上也是一種提高泛化能力的方法 

過擬合解決方案

方法一 儘量減少選取變數的數量 具體而言,我們可以人工檢查每一項變數,並以此來確定哪些變數更為重要,然後,保留那些更為重要的特徵變數。至於,哪些變數應該捨棄,我們以後在討論,這會涉及到模型選擇演算法,這種演算法是可以自動選擇採用哪些特徵變數,自動捨棄不需要的變數。這類做法非常有效,但是其缺點是當你捨...

機器學習 過擬合的原因及解決方案

建模樣本抽取錯誤,包括 但不限於 樣本數量太少,抽樣方法錯誤,抽樣時沒有足夠正確考慮業務場景或業務特點等等,導致抽出的樣本資料不能有效足夠代表業務邏輯或業務場景 樣本裡的噪音資料干擾過大,大到模型過分記住了噪音特徵,反而忽略了真實的輸入輸出間的關係 建模時的 邏輯假設 到了模型應用時已經不能成立了。...

過擬合問題和解決方案

模型越複雜,模型對訓練集的測試效果越好,但對測試集的測試效果很差,此時稱為過擬合。如樣本是9個點,當多項式回歸是2次或3次時,擬合效果不錯但仍有誤差 當多項式是9次時,可以計算出一條曲線完美通過所有樣本點,但這種方式顯然把樣本的噪音全部擬合出來了,模型放到訓練集時效果很差。對此,有正則化 加懲罰項 ...