首先,我們先來理解一下偏差與方差的概念。舉個高中數學裡經常出現的例子,兩個射擊選手在射靶。甲射出的子彈很集中在某個區域,但是都偏離了靶心。我們說他的射擊很穩定,但是不夠準,準確性差。也就是說他的方差小(子彈很集中在某個區域),但是他的偏差大(子彈打中的地方距離靶心遠)。相反,乙射出的子彈比較分散,但是有些很準,中了靶心。我們說他射擊比較準,但是發揮不夠穩定,穩定性差。
所以,偏差是描述了準確性。方差是描述穩定性。
那麼,在機器學習中,偏差、方差與欠擬合、過擬合之間又有什麼關係呢?
如上圖中的第二個座標,隨著模型引數的增加,訓練集的誤差會慢慢減少。從第乙個座標和最後乙個座標可以直觀感受到這種效果。因為模型引數少的時候,模型不能很好地擬合訓練集的資料,所以偏差就比較大。當模型引數足夠多時,模型擬合的效果就非常好了。
但是,當我們用驗證集來驗證時,卻會有這樣的情況:
對於欠擬合的情況,我們很容易理解,模型本來擬合的就不好,驗證集的誤差大也是自然。但是,對於過擬合來說,訓練集的效果是非常好的,但是驗證集上的效果卻並不好,這是因為隨著引數越多,模型就越不通用,而是針對了某一種特定的情況,比較有偏見,所以當用驗證集驗證時,誤差會很大。因為驗證集中的有些資料可能很符合過擬合的那條曲線,也有可能很不符合,所以資料方差就大了。也就是,方差大的時候我們可以認為是因為過擬合了。相反,模型引數少的時候,模型比較粗糙,偏離正確的擬合比較遠,所以是偏差大。
吳恩達機器學習 偏差與方差 欠擬合與過擬合
在吳恩達機器學習課程的第86課時中,講解了偏差和方差與欠擬合和過擬合的關係。1 偏差與方差的概念 先看下網上關於偏差與方差的例子。該例子可以理解為射擊打靶。偏差指的是多次射擊的平均環數與環心的偏差度,顯然上方的兩個圖的偏差較小,而下方兩圖偏離圓心較遠,偏差較大。方差指的是多次射擊的成績穩定狀態,顯然...
偏差與方差,欠擬合與過擬合的關係
偏差指 輸出與真實標記的差別,記為 偏差度量了學習演算法的期望 與真實結果的偏離程度,即刻畫了學習演算法本身的擬合能力。方差指乙個特定訓練集訓練得到的函式,與所有訓練集得到平均函式的差的平方再取期望,記為 方差度量了同樣大小的訓練集的變動所導致的學習效能的變化,即刻畫了資料擾動所造成的影響。方差表示...
偏差與方差, 過擬合與欠擬合 學習曲線之間的聯絡
學習曲線就是通過畫出不同訓練集大小時訓練集和交叉驗證的準確率,可以看到模型在新資料上的表現,進而來判斷模型是否方差偏高或偏差過高,以及增大訓練集是否可以減小過擬合。如何判別乙個模型是過擬合還是欠擬合,是偏差問題還是方差問題?可以通過學習曲線來判斷。從總體趨勢上來看,訓練集的準確率是逐漸減低的,測試集...