理解機器學習中的偏差與方差

2021-09-01 18:20:37 字數 689 閱讀 6257

學習演算法的**誤差, 或者說泛化誤差(generalization error)可以分解為三個部分: 偏差(bias), 方差(variance) 和雜訊(noise). 在估計學習演算法效能的過程中, 我們主要關注偏差與方差. 因為雜訊屬於不可約減的誤差 (irreducible error).

首先拋開機器學習的範疇, 從字面上來看待這兩個詞:

這裡的偏指的是偏離, 那麼它偏離了什麼到導致了誤差? 潛意識上, 當談到這個詞時, 我們可能會認為它是偏離了某個潛在的 「標準」, 而這裡這個 「標準」 也就是真實情況 (ground truth). 在分類任務中, 這個 「標準」 就是真實標籤 (label).

偏差度量了學習演算法的期望**與真實結果的偏離程式, 即刻畫了學習演算法本身的擬合能力.

方差.方差度量了同樣大小的訓練集的變動所導致的學習效能的變化, 即刻畫了資料擾動所造成的影響.

雜訊.雜訊表達了在當前任務上任何學習演算法所能達到的期望泛化誤差的下界, 即刻畫了學習問題本身的難度. 巧婦難為無公尺之炊, 給一堆很差的食材, 要想做出一頓美味, 肯定是很有難度的.

想當然地, 我們希望偏差與方差越小越好, 但實際並非如此. 一般來說, 偏差與方差是有衝突的, 稱為偏差-方差窘境 (bias-variance dilemma).

機器學習中偏差 方差的理解

在機器學習中經常遇到,model的 過擬合 以及 欠擬合 問題,怎樣判斷呢,這裡可能就需要根據偏差 方差 錯誤曲線來判別。因此這裡我們需要對方差 偏差有乙個直觀感性的認識。當模型做出與實際情況不符的假設時就會引起錯誤,這種錯誤稱為偏差。如果選擇的模型與 變數和因變數之間的關係差別太大時 通常是模型太...

直觀理解機器學習中的偏差和方差

以打靶為例,瞄相當於訓練,打相當於測試 偏差相當於瞄的準不准,方差相當於打的穩不穩 在用訓練集訓練模型初期 欠擬合 模型對訓練集有較高的錯誤率 瞄的不准,偏差高 而且在不同的測試集上表現近似 打的穩,方差小 在用訓練集訓練模型後期 過擬合 模型對訓練集都的錯誤率很小 瞄的準,偏差低 但在不同的測試集...

機器學習基礎 偏差與方差

在有監督學習中,通過訓練資料得到的模型,需要考察其泛化能力,通常用泛化誤差來衡量模型泛化能力的高低。也可以用測試誤差來衡量模型泛化能力,不過測試的樣本是有限的 而且難以保證不是有偏的 基於大數定律,假設每次參與模型訓練的樣本都是獨立同分布的 實際有點難,會有樣本重疊 那麼從多個訓練樣本中得到的經驗誤...