過擬合,欠擬合,偏差,誤差,正則化

2021-08-18 13:26:29 字數 2518 閱讀 5349

欠擬合-過擬合與偏差-方差關係

過擬合

在訓練資料上表現良好,在未知資料上表現差。高方差

模型把資料學習的太徹底,以至於把雜訊資料的特徵也學習到了,使得測試的時候不能夠很好地識別資料,即不能正確的分類,模型泛化能力太差

解決方法:

1)重新清洗資料

2)增大資料的訓練量

3)採用正則化方法,正則化方法包括l0正則、l1正則和l2正則,而正則一般是在目標函式之後加上對於的範數。但是在機器學習中一般使用l2正則

原因:

l0範數是指向量中非0的元素的個數,l1範數是指向量中各個元素絕對值之和

兩者都可以實現稀疏性,既然l0可以實現稀疏,為什麼不用l0,而要用l1呢?個人理解一是因為l0範數很難優化求解(np難問題),二是l1範數是l0範數的最優凸近 似, 而且它比l0範數要容易優化求解。所以大家才把目光和萬千寵愛轉於l1範數。

l2範數是指向量各元素的平方和然後求平方根

可以使得w的每個元素都很小,都接近於0,但與l1範數不同,它不會讓它等於0,而是接近於0。l2正則項起到使得引數w變小加劇的效果,但是為什麼可以防止過擬合呢?乙個通俗的理解便是:更小的引數值w意味著模型的複雜度更低,對訓練資料的擬合剛剛好(奧卡姆剃刀),不會過分擬合訓練資料,從而使得不會過擬合,以提高模型的泛化能力。還有就是看到有人說l2範數有助於處理 condition number不好的情況下矩陣求逆很困難的問題(具體這兒我也不是太理解)。

4)採用dropout方法,常用於神經網路,在訓練的時候讓神經元以一定的概率不工作

欠擬合

在訓練資料和未知資料上表現都很差,高偏差

解決方法:

1)新增其他特徵項,例如,「組合」、「泛化」、「相關性」三類特徵是特徵新增的重要手段

2)新增多項式特徵,例如將線性模型通過新增二次項或者三次項使模型泛化能力更強

3)減少正則化引數,正則化的目的是用來防止過擬合的

正則化regularization

通過對引數θ的懲罰來影響整個模型

模型的偏差-方差折衷

error反映的是整個模型的準確度,

bias反映的是模型在樣本上的輸出與真實值之間的誤差,即模型本身的精準度,

variance反映的是模型每一次輸出結果與模型輸出期望之間的誤差,即模型的穩定性。

交叉驗證

用於防止模型過於複雜而引起的過擬合

一般要盡量滿足:

1)訓練集的比例要足夠多,一般大於一半

2)訓練集和測試集要均勻抽樣

分類:

1)k-folder cross-validation 十折交叉驗證

k個子集,每個子集均做一次測試集,其餘的作為訓練集。交叉驗證重複k次,每次選擇乙個子集作為測試集,並將k次的平均交叉驗證識別正確率作為結果。

優點:所有的樣本都被作為了訓練集和測試集,每個樣本都被驗證一次。

10-folder通常被使用

2)k * 2 folder cross-validation

對每乙個folder,都平均分成兩個集合s0,s1,我們先在集合s0訓練用s1測試,然後用s1訓練s0測試。

優點:測試和訓練集都足夠大,每乙個個樣本都被作為訓練集和測試集。

一般使用k=10

3) least-one-out cross-validation(loocv) 留一法

假設dataset中有n個樣本,那loocv也就是n-cv,意思是每個樣本單獨作為一次測試集,剩餘n-1個樣本則做為訓練集。

如果有k個樣本,則需要訓練k次,測試k次。

優點:

1)每一回合中幾乎所有的樣本皆用於訓練model,因此最接近母體樣本的分布,估測所得的generalization error比較可靠。

2)實驗過程中沒有隨機因素會影響實驗資料,確保實驗過程是可以被複製的。

缺點:計算成本高,為需要建立的models數量與總樣本數量相同,當總樣本數量相當多時,loocv在實作上便有困難,除非每次訓練model的速度很快,或是可以用平行化計算減少計算所需的時間。

計算最繁瑣,但樣本利用率最高。適合於小樣本的情況。

4) hold -out cross validation 簡單交叉驗證

步驟如下:

1、 從全部的訓練資料 s中隨機選擇 中隨機選擇 s的樣例作為訓練集 train,剩餘的 作為測試集 作為測試集 test。

2、 通過對測試集訓練 ,得到假設函式或者模型 。

3、 在測試集對每乙個樣本根據假設函式或者模型,得到訓練集的類標,求出分類正確率。

4,選擇具有最大分類率的模型或者假設。

過擬合 欠擬合 正則化

產生原因 緩解方法 合適的資料分布 合理的模型複雜性 合理的組合應該是 複雜的資料分布 簡單的模型 或者 簡單的資料分布 複雜的模型 神經網路中的過擬合 原理 或者說思考 從貝葉斯的角度來說,代價函式可以表示為p y w,x 的形式,而正則項則是對引數w做了乙個先驗分布的假設,使得代價函式變成p y...

什麼是欠擬合現象 過擬合 欠擬合與正則化

在機器學習模型的訓練過程中,經常會發生過擬合 overfitting 欠擬合 underfitting 的現象。那這二者究竟為何物呢?過擬合,通俗點說,就是我們的模型對資料模擬的太好了,訓練集中的資料幾乎都被完美 有人就說了,我 的完美也有錯嗎?是的,你有錯。因為我們的目標並不是看你訓練集中的資料 ...

過擬合欠擬合

一篇文章,帶你明白什麼是過擬合,欠擬合以及交叉驗證 在本文中也許你會掌握機器學習中最核心的概念 偏差 方差權衡.其主要想法是,你想建立盡可能 準確並且仍能適用於新資料的模型 這是泛化 危險的是,你可以輕鬆的在你制定的資料中建立過度擬合本地噪音的模型,這樣的模型是無用的,並且導致弱泛化能力,因為雜訊是...