過擬合的定義
在對已知的資料集合進行學習的時候,我們選擇適應度最好的模型最為最終的結果。雖然我們選擇的模型能夠很好的解釋訓練資料集合,但卻不一定能夠很好的解釋測試資料或者其他資料,也就是說這個模型過於精細的刻畫了訓練資料,對於測試資料或者其他新的資料泛華能力不強。
發生過擬合的原因
1)使用過於複雜的模型(dvc 很大);
(2)資料噪音;
(3)有限的訓練資料。
a.由於對樣本資料,可能存在隱單元的表示不唯一,即產生的分類的決策面不唯一.隨著學習的進行, bp演算法使權值可能收斂過於複雜的決策面,並至極致.過擬合的解決辦法:b.權值學習迭代次數足夠多(overtraining),擬合了訓練資料中的雜訊和訓練樣例中沒有代表性的特徵.
1.權值衰減.在每次迭代過程中以某個小因子降低每個權值,這等效於修改e的定義,加入乙個與網路權值的總量相應的懲罰項,此方法的動機是保持權值較小,避免weight decay,從而使學習過程向著複雜決策面的反方向偏
2.適當的stopping criterion
3.驗證資料
乙個最成功的方法是在訓練資料外再為演算法提供一套驗證資料,應該使用在驗證集合上產生最小誤差的迭代次數,不是總能明顯地確定驗證集合何時達到最小誤差.typically 30% of training patterns;validation set error is checked each epoch;stop training if validation error goes up
4.cross-validation with some patterns
交叉驗證方法在可獲得額外的資料提供驗證集合時工作得很好,但是小訓練集合的過度擬合問題更為嚴重
k-fold交叉方法:
把訓練樣例分成k份,然後進行k次交叉驗證過程,每次使用不同的乙份作為驗證集合,其餘k-1份合併作為訓練集合.每個樣例會在一次實驗中被用作驗證樣例,在k-1次實驗中被用作訓練樣例;每次實驗中,使用上面討論的交叉驗證過程來決定在驗證集合上取得最佳效能的迭代次數n*,然後計算這些迭代次數的均值,作為最終需要的迭代次數。
5. 減少特徵
人工選擇,預留一些特徵
利用演算法選取一些比較好的特徵
6. 正則化
這裡有點疑問,正則化是為了防止過擬合還是為了解決過擬合。對部分無用的feature,定義其parameter(p3,p4)非常大,這樣會導致訓練結果w3,w4非常小,幾乎為0,降低模型複雜度。這裡也有個問題就是lamba很大會導致所有的wi都為0。矩陣分解中經常會用到。
機器學習 過擬合問題
引數估計角度 訓練集是資料生成分布的取樣,訓練集所估計的經驗分布是資料生成分布的近似,由於訓練集的有限性,近似的分布在細節上與資料生成分布存在著差異。過擬合是指模型錯把訓練集自身的細節,當作資料生成分布的一般性質來學習,從而導致模型泛化效能的降低。訓練集上的經驗誤差在下降 偏差小 驗證集上的誤差 泛...
機器學習之擬合和過擬合問題
過擬合 當某個模型過度的學習訓練資料中的細節和噪音,以至於模型在新的資料上表現很差,我們稱過擬合發生了,通俗點就是 模型在訓練集中測試的準確度遠遠高於在測試集中的準確度。過擬合問題通常發生在變數特徵過多的時候。這種情況下訓練出的方程總是能很好的擬合訓練資料,也就是說,我們的代價函式可能非常接近於0或...
機器學習中的過擬合問題
最近研究一下機器學習中的過擬合問題,看了很多大牛們的資料,寫的都不錯,我這裡面主要是整理,開始正文。過擬合 overfitting 是指在模型引數擬合過程中的問題,由於訓練資料報含抽樣誤差,訓練時,複雜的模型將抽樣誤差也考慮在內,將抽樣誤差也進行了很好的擬合。具體表現就是最終模型在訓練集上效果好 在...