overfitting 過度擬合 的概念

2021-08-27 13:10:04 字數 1664 閱讀 1087

過適-維基百科:

在統計學中,過適現象(英語:overfitting

,或稱:過度擬合)是指在調適乙個統計模型時,使用過多引數。對比於可取得的資料總量來說,乙個荒謬的模型模型只要足夠複雜,是可以完美地適應資料。過適一般可以識為違反奧卡姆剃刀原則。當可選擇的引數的自由度超過資料所包含資訊內容時,這會導致最後(調適後)模型使用任意的引數,這會減少或破壞模型一般化的能力更甚於適應資料。過適的可能性不只取決於引數個數和資料,也跟模型架構與資料的一致性有關。此外對比於資料中預期的雜訊或錯誤數量,跟模型錯誤的數量也有關。

過適現象的觀念對機器學習也是很重要的。通常乙個學習演算法是借由訓練範例來訓練的。亦即預期結果的範例是可知的。而學習者則被認為須達到可以**出其它範例的正確的結果,因此,應適用於一般化的情況而非只是訓練時所使用的現有資料(根據它的歸納偏向)。然而,學習者卻會去適應訓練資料中太特化但又隨機的特徵,特別是在當學習過程太久或範例太少時。在過適的過程中,當**訓練範例結果的表現增加時,應用在未知資料的表現則變更差。

在統計和機器學習中,為了避免過適現象,須要使用額外的技巧(如交叉驗證、early stopping、貝斯資訊量準則

、赤池資訊量準則或model comparison),以指出何時會有更多訓練而沒有導致更好的一般化。人工神經網路的過適過程亦被認知為過度訓練(英語:overtraining

)。在treatmeant learning中,使用最小最佳支援值(英語:minimum best support value

)來避免過適。

相對於過適是指,使用過多引數,以致太適應資料而非一般情況,另一種常見的現象是使用太少引數,以致於不適應資料,這則稱為乏適(英語:underfitting

,或稱:擬合不足)現象。

overfitting

overfittingt是這樣一種現象:乙個假設在訓練資料上能夠獲得比其他假設更好的擬合,但是在訓練資料外的資料集上卻不能很好的擬合資料。此時我們就叫這個假設出現了overfitting的現象。

出現這種現象的主要原因是訓練資料中存在噪音或者訓練資料太少。

而解決overfit的方法主要有兩種:提前停止樹的增長或者對已經生成的樹按照一定的規則進行後剪枝。

..........................

以下概念由本人摘自《資料探勘-概念與技術》

p186 過分擬合 即在機器學習期間,它可能併入了訓練資料中的某些特殊的異常點,這些異常不在一般資料集中出現。

............................

補充c4.5演算法中的介紹 這個通俗易懂

決策樹為什麼要剪枝?原因就是避免決策樹「過擬合」樣本。前面的演算法生成的決策樹非常的詳細而龐大,每個屬性都被詳細地加以考慮,決策樹的樹葉節點所覆蓋的訓練樣本都是「純」的。因此用這個決策樹來對訓練樣本進行分類的話,你會發現對於訓練樣本而言,這個樹表現堪稱完美,它可以100%完美正確得對訓練樣本集中的樣本進行分類(因為決策樹本身就是100%完美擬合訓練樣本的產物)。但是,這會帶來乙個問題,如果訓練樣本中包含了一些錯誤,按照前面的演算法,這些錯誤也會100%一點不留得被決策樹學習了,這就是「過擬合」。c4.5的締造者昆蘭教授很早就發現了這個問題,他作過乙個試驗,在某乙個資料集中,過擬合的決策樹的錯誤率比乙個經過簡化了的決策樹的錯誤率要高。那麼現在的問題就來了,如何在原生的過擬合決策樹的基礎上,通過剪枝生成乙個簡化了的決策樹?

源:

過度擬合 Over fitting

一 說明 過度擬合是指模型與訓練資料擬合較好,訓練誤差很小或沒有訓練誤差,但不能很好地推廣到不可見資料。或者說在實際的整個資料分布 包含訓練集以外例項 上表現不好時,稱之為該模型存在過度擬合。由於測試學習演算法是否成功在於演算法對於訓練中未見過的資料的 執行能力。因此換句話說,模型的訓練誤差小,泛化...

機器學習 過擬合 Overfitting

在統計學和機器學習中,overfitting一般在描述統計學模型隨機誤差或噪音時用到。它通常發生在模型過於複雜的情況下,如引數過多等。overfitting會使得模型的 效能變弱,並且增加資料的波動性。看下圖 綠線表示overfitting的模型,黑線表示正則化模型。雖然綠線最符合訓練資料,但它太依...

模型過度擬合

這幾天在訓練乙個文字處理的機器學習演算法,使用支援向量機和決策樹演算法在訓練集上的資料的準確度特別高,但是在測試集上的資料的準確度確很低,於是陷入過度擬合的煩惱中,查詢資料發現一些多度擬合的看法。仔細想想確實在訓練時存在一些問題,第一 輸入變數多,由於缺乏對問題的根本認識,使用了很多無關變數,這個問...