泛化能力和擬合能力的區別,偏差與方差的區別

2021-09-24 15:52:16 字數 1114 閱讀 4794

在機器學習領域,最怕出現的就是過擬合,也就是訓練出來的模型在訓練集上進行測試,效果很好(一般來講,在神經網路訓練中,隨著迭代次數的增加,模型的擬合能力會變得越來越好,如下圖中的紅線部分),但是在測試集上效果很差(也就是泛華能力變得很差,舉個栗子,對於加法準則來講,1+1=2,隨著迭代次數來講,每一次1+1都能算出等於2,但是突然測試集來了乙個100+100,模型只能夠計算1+1的,不能計算100+100的,因此泛化能力就不行)。因此可以理解為泛華能力就是模型在測試集上的效果與真實效果的對比,擬合能力就是模型在訓練集上與真實效果的對比。

隨著迭代次數逐漸增多,那麼模型的擬合能力就會變得更強,並且模型的複雜度就會上公升,也會容易導致過擬合。相反如果限制模型的複雜度,降低其擬合能力,又有可能會導致欠擬合。因此,在模型能力和複雜度之間取得乙個較好的平衡對乙個機器學習演算法來講十分重要。我們可以使用偏差-方差來分析和指導。

偏差:在實際訓練乙個模型的時候,訓練集是從真實分布上取樣得到的有效樣本的集合。不同的訓練集會得到不同的模型。偏差是指乙個模型在不同訓練集上的平均效能和最優模型的差異。偏差可以用來衡量乙個模型的擬合能力;

方差:是指乙個模型在不同訓練集上的差異,可以用來衡量乙個模型是否容易過擬合。

如下圖,a是一種理想情況,也是我們機器學習想要獲得到的模型。

b表示是高偏差低方差的情況,表示模型的泛化能力很好,但是擬合能力不行。

c表示的高方差低偏差的情況,表示模型的泛化能力不行,但是擬合能力很好。

d表示的高方差高偏差的情況,表示模型的泛化能力和擬合能力都不行。

方差一般會隨著訓練樣本的增加而減少,當樣本比較多的時候,方差比較小,我們可以選擇能力強的模型來減少偏差。

下圖是機器學習模型的期望錯誤、偏差和方差隨複雜度的變化情況。最優的模型並不一定是偏差曲線和方差曲線的交點。

正則化方法 防止過擬合,提高泛化能力

在訓練資料不夠多時,或者overtraining時,常常會導致overfitting 過擬合 其直觀的表現如下圖所示,隨著訓練過程的進行,模型複雜度增加,在training data上的error漸漸減小,但是在驗證集上的error卻反而漸漸增大 因為訓練出來的網路過擬合了訓練集,對訓練集外的資料卻...

過擬合,欠擬合,不收斂,泛化能力的通俗理解

因為最近有需要,得跟別人講一些機器學習的基本概念,在此記錄下,一起學習。泛化能力是什麼呢?有的資料給出的定義如下 泛化能力 generalization ability 是指機器學習演算法對新鮮樣本的適應能力,簡而言之是在原有的資料集上新增新的資料集,通過訓練輸出乙個合理的結果。學習的目的是學到隱含...

誤差 過擬合 正則化 交叉驗證 泛化能力詳解

機器學習的目的就是使學習得到的模型不僅對訓練資料有好的表現能力,同時也要對未知資料具有很好的 能力,因此給定損失函式的情況下,我們可以得到模型的訓練誤差 訓練集 和測試誤差 測試集 根據模型的訓練誤差和測試誤差,我們可以評價學習得到的模型的好壞。同時需要注意的是,統計學習方法具體採用的損失函式未必是...