泛化 過渡擬合的風險

2022-03-31 05:13:24 字數 1941 閱讀 4384

泛化

接下來,我們來看看圖1。

圖1生病(藍色)和健康(橙色)的樹

您能設想出乙個有效的模型來**以後的生病或健康的樹嗎?花點時間在腦海中繪製一條曲線將藍色和橙色分開,或者在腦海中圈定一些橙色或藍色。然後再看看圖2,它顯示某種機器學習模型如何將生病的樹與健康的樹區分開。注意,該模型產生的損失率非常低。

圖 2.用於區分生病的樹與健康的樹的複雜模型。

乍一看,圖 2 所示的模型在將健康的樹與生病的樹區分開方面似乎表現得非常出色。真的是這樣嗎?

損失率很低,但任然是很糟糕的模型?

圖三顯示我們向該模型中新增資料後所發生的的情況。結果表明,該模型在處理資料方面的表現非常糟糕。注意,該模型對絕大部分新資料的分類都是不正確的。

圖 3.該模型在**新資料方面表現非常糟糕。

總結

圖2和圖3所示的模型過擬合了訓練資料的特徵。過擬合模型在訓練過程中產生的損失很低,但是在**新資料方面的表現卻非常糟糕。如果某個模型在擬合當前樣本表現的良好,那麼我們如何相信該模型會對新資料做出好的**呢?正如您稍後看到的,過擬合是由於模型複雜度程度超出了所需程度造成的。機器學習的基本衝突時適當擬合我們的資料,但是也要盡可能簡單地擬合資料。

機器學習的目標是對從真實概率分布中抽取的新資料做出良好的**。遺憾的是,模型無法檢視整體的情況;模型只能從訓練資料集中抽樣。如果某個模型在擬合當前樣本方面表現良好,那麼您如何相信該模型也會對未見過的樣本做出良好的**呢?

奧卡姆威廉是14世紀一位崇尚簡單的修士和哲學家。他認為科學家應該優先採用簡單的模型或公式。奧卡姆剃刀定律在機器學習方面的運用如下:

機器學習模型越簡單,良好的實證結果就越可能不僅僅基於樣本的特徵。
如今,我們將奧卡姆剃刀定律正式應用於統計學習理論計算學習理論領域。這些領域已經形成了泛化邊界,即統計化描述模型根據以下因素泛化到新資料的能力:

雖然理論分析在理想化假設下可提供正式保證,但是實踐中卻很難應用。機器學習側重於實證評估,以判斷模型泛化到新資料的能力。

機器學習模型旨在根據以前未見過的新資料做出良好的**。但是,如果您想要根據資料集構建模型,如何獲得以前從未見過的資料呢?一種方案是將您的資料集分為兩個子集:

一般來說,在測試集上表現是否良好是衡量能否在新的資料上表現良好的有用指標,前提是:

機器學習細則
以下三項基本假設闡明了泛化:

在實踐中,我們有時會違背這些假設。例如:

如果違背以上三項基本假設中的任何一項,那麼我們就必須密切注意指標。

總結:

如果某個模型嘗試緊密擬合訓練資料,但卻不能很好地泛化到新資料,就會發生過擬合。

如果不符合監督式學習的關鍵假設,那麼我們將失去對新資料進行**這項能力的重要理論保證。

引用泛化 (generalization):過擬合的風險

泛化 過擬合與欠擬合

在監督學習中,我們想要在訓練資料上構建模型,然後能夠對沒見過的新資料 這些新資料與訓練集具有相同的特性 做出準確 如果乙個模型能夠對沒見過的資料做出準確 我們就說它能夠從訓練集泛化 generalize 到測試集。我們想要構建乙個泛化精度盡可能高的模型。通常來說,我們構建模型,使其在訓練集上能夠做出...

泛化和過擬合

泛化能力 泛化能力用來表徵學習模型對於未知資料的 能力。很顯然,我們沒有辦法對所有的資料進行 然後判斷來計算乙個模型的模型的泛華能力,所以在 實際應用當中,我們一般還是用的測試集中的資料來近似泛化能力。過擬合當某個模型過度的學習訓練資料中的細節和噪音,以至於模型在新的資料上表現很差,我們稱過擬合發生...

過擬合,欠擬合,不收斂,泛化能力的通俗理解

因為最近有需要,得跟別人講一些機器學習的基本概念,在此記錄下,一起學習。泛化能力是什麼呢?有的資料給出的定義如下 泛化能力 generalization ability 是指機器學習演算法對新鮮樣本的適應能力,簡而言之是在原有的資料集上新增新的資料集,通過訓練輸出乙個合理的結果。學習的目的是學到隱含...