模型的誤差是偏差和方差相加而成的。
偏差(又稱訓練誤差,經驗誤差)反映了模型在訓練集樣本上的期望輸出與真實結果之間的差距,即模型本身的精確度,反映的是模型本身的擬合能力。偏差過高反映了模型存在欠擬合現象,表明模型過於簡單,沒有很好的擬合訓練集變數之間的特徵,需要進一步提公升模型的複雜度。
方差(又稱泛化誤差)反映了模型在不同的訓練集下得到的結果與真實結果之間誤差的波動情況,即模型的穩定性。由於訓練集中會存在雜訊,並且該雜訊不具有通用性,不同的訓練集中會有不同的雜訊,當模型過於複雜時,也會大量學習訓練集中的雜訊,最終導致模型的泛華能力變差,這就是過擬合產生的原因。
解決過擬合的兩條主線:一是增大資料集,二是降低模型的複雜度(根據vc維理論可知)。一般來說擴充套件資料集是比較難的,而且資料集大,模型複雜度高的時候即使能獲得好的泛化結果,也會增大計算量。所以常見的方式都是以降低模型的複雜度為主,接下來看看有哪些常見的方法可以自適應地降低模型的複雜度。
減低模型複雜度的方法見
[1]徐麟.資料分析師求職面試指南.中國工信出版集團
過擬合及解決方法
在機器學習演算法中,我們經常將原始資料集分為三部分 訓練集 training data 驗證集 validation data 測試集 testing data 1.validation data是什麼?它事實上就是用來避免過擬合的。在訓練過程中,我們通經常使用它來確定一些超引數 比方,依據vali...
過擬合及解決方法
過擬合,指的是模型在訓練集上表現的很好,但是在交叉驗證集合測試集上表現一般,也就是說模型對未知樣本的 表現一般,泛化 generalization 能力較差。通俗一點地來說過擬合就是模型把資料學習的太徹底,以至於把雜訊資料的特徵也學習到了。在機器學習演算法中,我們常常將原始資料集分為三部分 trai...
機器學習中常見的過擬合解決方法
在機器學習中,我們將模型在訓練集上的誤差稱之為訓練誤差,又稱之為經驗誤差,在新的資料集 比如測試集 上的誤差稱之為泛化誤差,泛化誤差也可以說是模型在總體樣本上的誤差。對於乙個好的模型應該是經驗誤差約等於泛化誤差,也就是經驗誤差要收斂於泛化誤差,根據霍夫丁不等式可知經驗誤差在一定條件下是可以收斂於泛化...