通俗理解偏差和方差 過擬合 正則化

2021-09-25 05:45:19 字數 896 閱讀 2202

1.解釋一下偏差和方差?

在統計學中,偏差和方差是用來衡量模型的好壞的。

偏差是指模型的**值的期望和真實值之間的差距。偏差越大,**值越偏離真實資料。

方差是指**值的分布範圍。方差越大,分布越分散。

2.為什麼會出現過擬合的現象?

過擬合是指模型在訓練集上達到了非常高甚至是100%的準確率,但是在測試集上的結果確很糟糕。

一般造成的原因是模型相對於訓練資料來說過於複雜,學到了不該學的一些東西。

(1)訓練集的分布和真實資料的分布或者測試集的分布往往是不一致的。(這也是為什麼即使不過擬合,一般測試集上的效果差於訓練集)

(2)任何資料上都是帶有雜訊的,訓練資料帶有一定的噪音誤差。

3.怎麼緩解過擬合?

(1)最好的辦法是獲取足夠多的有價值的資料,但這一般是很難辦到的。乙個妥協但有效的做法是進行資料增強,在現有資料的基礎上進行翻轉裁剪的等變化,人工產生資料使其更符合真實世界的情況。

(2)採用合適的模型,模型的複雜是相對資料來說的,資料不夠時可以對模型進行刪減或者選擇合適的模型。也可以使用交叉驗證的方法,融合多個小模型。

(3)以上兩點算是大的思路,此外還有許多tricks來進一步優化,像dropout,正則化,early stoping,bn等。 bn是資料在卷積層之後,進入啟用函式之前需要對資料標準化的操作,這樣可以一定程度上將訓練集和測試集在分布上統一,增強模型的泛化能力。

4.解釋一下正則化?

正則化的目的是防止過擬合,本質是要約束(限制)要優化的引數,一般是加在損失函式中的。本來解空間是全部區域,l2給解空間加上了圓型的約束,讓權值盡可能小,最後構造乙個所有引數都比較小的模型。因為一般認為引數值小的模型比較簡單,能適應不同的資料集,也在一定程度上避免了過擬合現象。l1的約束是方形,在角上會使許多權值為0,這也是l1能產生稀疏模型和特徵選擇的原因。

偏差 方差權衡 正則化 過擬合問題

偏差 方差權衡就是通過正則化調整模型的複雜度,正則化是解決共線性 特徵間高度相關 的乙個很有用的方法,它可以過濾掉資料中的雜訊,並最終防止過擬合。正則化背後的概念是引入額外的資訊 偏差 來對極端引數權重做出懲罰。最常用 的正則化形式成為l2正則化 l2 regularization 它有時也稱作l2...

過擬合,欠擬合,偏差,誤差,正則化

欠擬合 過擬合與偏差 方差關係 過擬合 在訓練資料上表現良好,在未知資料上表現差。高方差 模型把資料學習的太徹底,以至於把雜訊資料的特徵也學習到了,使得測試的時候不能夠很好地識別資料,即不能正確的分類,模型泛化能力太差 解決方法 1 重新清洗資料 2 增大資料的訓練量 3 採用正則化方法,正則化方法...

正則化 方差 偏差

正則化是指,在損失函式的基礎上加上了正則化項,即原來的loss function frac sum n y i hat y 2 變為 frac sum n y i hat y 2 frac sum n w 2 正則化的目的是為了防止過擬合 正則化可以防止過擬合的原因,從直觀意義上講,我們需要最小化損...