偏差與方差

2022-04-04 19:51:30 字數 1564 閱讀 4702

打靶場上來了4個槍手,開始打靶,piapiapia……一陣槍響,不一會兒,打靶成績出來了。以下是4位搶手的打靶結果:

不難看出,第一位搶手打的又準,而且穩定性也好,把把命中紅星。第二位槍手慘不忍睹,打的又偏,而且又毫無章法。第三位搶手準度一般,好在穩定性還不錯,只要提公升下準度,還是可以搶救一下。第四名槍手,穩定性不行,但是準度尚可,基本還是落在紅星的附近。

看完打靶,我們現在再回頭看看方差和偏差的數學解釋:

偏差:描述的是**值(估計值)的期望與真實值之間的差距。偏差越大,越偏離真實資料。

方差:描述的是**值的變化範圍,離散程度,也就是離其期望值的距離。方差越大,資料的分布越分散。

我們追求的是第一位槍手的結果:低偏差和低方差,也就是射的既准而且又穩定。我們討厭的是第二位槍手的狀態,射的不准,而且穩定性也不佳。

偏差和方差,用我們剛剛打靶的例子來說,乙個就是準度,乙個就是穩定性了。是我們拿到的已有資料,通過模型訓練後,根據真實值和評估值,判斷訓練結果的乙個方式。

那麼,我們拿到資料訓練後,有辦法達到低方差和低偏差的狀態呢?事實的情況往往是:魚和熊掌,沒法兼得,偏差和方差就像是蹺蹺板的兩個頭,按下葫蘆浮起瓢,很尷尬。

對,這確實非常遺憾。很多情況就是如此,其最根本的原因就是:我們手頭上有的,只可能是有限的資料,我們試圖通過對有限的資料,來估計無限的真實樣本空間。不得不說,這和盲人摸象沒什麼兩樣(原諒我再次用這個比喻,我也是黔驢技窮了)。

那麼,我們還是用盲人摸大象的例子來說明問題吧:

假設,大象是資料所有的樣本空間分布,那麼現實情況,我們拿到的資料往往是不全的,可能只是大象身體的一部分,比如說:2條腿,一部分的耳朵,一部分的尾巴,一部分的 鼻子等等。

對,就是如下圖所示的玩意(pia,這什麼破玩意啊,狠狠的把這個破資料給砸了)

但是,即便只是2條腿,部分耳朵,尾巴和鼻子的圖,我想在座的各位,一定也能一瞬間就能辨認出,這就是大象。這主要得益於各位對於大象的先驗知識。但是我們的模型卻沒有在座的各位這麼吊!

如果只考慮給予資料的真實性,而不去考慮先驗知識,而只考慮去降低偏差的話,模型就會失去泛化能力,也就是我們常說的過擬合,這降低了模型在真實資料中的表現。模型會覺得,這個玩意是乙個柱子,而不是大象。當然就提供的資料來看,確實更像是柱子,不對嗎?但這實在是太糟糕了。相反的,如果我們充分相信自己的先驗知識,在識別加入更多的限制,這顯然會增加模型的偏差(因為給的資料和大象確實差遠了)。但是識別的穩定性卻提高了,如果給的資料中是1條腿,部分象牙、鼻子等資料,模型也能識別出這是乙隻大象。所以,如剛才所說的,偏差和方差是蹺蹺板的2頭,很多時候只能去取2者之間的最優。

偏差與方差

偏差度量了學習演算法的期望 與真實結果的偏離程度,即刻畫了學習演算法本身的擬合能力 方差度量了同樣大小的訓練集的變動多導致的學習效能的變化,即刻畫了資料擾動所造成的影響。雜訊則表達了在當前任務上任何學習演算法所能達到的期望泛化誤差的下界,即刻畫了學習問題本身的難度。偏差 方差分解說明,泛化效能是由學...

偏差與方差

1.定義 偏差指的是演算法在大型訓練集上的錯誤率,方差指的是演算法在測試集上的表現低於訓練集的程度。當方差很高時,說明模型過擬合 當偏差很高時,說門模型欠擬合。2.減少偏差的方案 偏差過高,既模型在訓練集上的錯誤率太高說明模型欠擬合,減少偏差的方案如下 減少或去掉正則化 l1,l2,dropout ...

偏差與方差學習筆記

我們都知道,泛化誤差可以分解為雜訊,偏差和方差,即泛化誤差是由雜訊,偏差和方差共同決定的,但是為什麼是由他們三個決定的,這裡做乙個比較詳細的說明。首先,我們先做幾個符號的說明 yd 測試樣本 x 在資料集中的標記 y 測試樣本 x 的真實標記 f x d 訓練集d上學得模型 f 在 x上的 輸出 那...