摘要:以前在機器學習中一直使用經驗風險來逼近真實風險,但是事實上大多數情況經驗風險並不能夠準確逼近真實風險。後來業界就提出了泛化誤差的概念(generalization error),在機器學習中泛化誤差是用來衡量乙個學習機器推廣未知資料的能力,即根據從樣本資料中學習到的規則能夠應用到新資料的能力。常用的計算方法是:用在訓練集上的誤差平均值-在測試集上的誤差平均值。
一:經驗風險
機器學習本質上是一種對問題真實模型的逼近,這種近似模型也叫做乙個假設。因為真實模型肯定是無法得到的,那我們的假設肯定與真實情況之間存在誤差,這種誤差或者誤差的積累也叫做風險。
在我們選擇了乙個假設(或者獲得乙個分類器)後,為了得到真實誤差的逼近,我們用分類器在樣本資料上的分類結果與樣本本身真實結果之間的差值來表示。這個差值叫做經驗風險。
以前機器學習中經常通過經驗風險的最小化作為目標,但是後來發現很多分類函式在樣本集合上能夠很輕易的獲得100%的正確率,但是在對真實資料的分類卻很糟。也表明了這種分類函式推廣能力(泛化能力)差。導致這種現象的原因是:經驗風險並不能夠真正的逼近真實風險,因為樣本集合的數目相對於真實世界要分類的資料來說就是九牛一毛。
之後統計學中就引入了泛化誤差界的概念。
二:泛化誤差界
泛化誤差界刻畫了學習演算法的經驗風險與期望風險之間偏差和收斂速度.
真實的風險應該由兩部分組成:
1:經驗風險,代表分類器在給定樣本上的誤差(可以精確計算)。
2:置信風險,代表我們可以在多大程度上信任分類器在未知資料上的分類結果(不可以精確計算),因為不可以精確計算,所以只能給出乙個估計區間,也因為這個泛化誤差只能給出乙個上界。 與置信風險相關的變數有兩個:
a)樣本數量,樣本數量越大表明我們的學習結果正確的可能性越大,此時置信風險越小。
b)vc維,分類函式的vc維越大,推廣能力越差,置信風險越大。
真實風險 ≤ 經驗風險 + 置信風險。
現在統計學習的目標就從經驗風險最小化變為經驗風險與置信風險之和最小化。
名詞解析之泛化誤差
摘要 以前在機器學習中一直使用經驗風險來逼近真實風險,但是事實上大多數情況經驗風險並不能夠準確逼近真實風險。後來業界就提出了泛化誤差的概念 generalization error 在機器學習中泛化誤差是用來衡量乙個學習機器推廣未知資料的能力,即根據從樣本資料中學習到的規則能夠應用到新資料的能力。常...
關於訓練誤差 測試誤差 泛化誤差
我們在學習模式識別的時候,總是會遇到一些專業詞彙,而其中有的專業詞彙叫人傻傻分不清。今天我就來說說訓練誤差 測試誤差 泛化誤差到底是什麼,區別所在。對於分類學習演算法,我們一般將樣本集分為訓練集和測試集,其中訓練集用於演算法模型的學習或訓練,而測試集通常用於評估訓練好的模型對於資料的 效能評估。而這...
談談對泛化誤差的理解
誤差這個詞我們經常會遇到,在機器學習中,我們最終想要的結果實際上就是減小學習後的估計值和真實值的誤差。比如在回歸中,我們的 loss function 就表示乙個誤差。而我們需要做的,就是最小化這個誤差,也就是對 object function 的處理。那麼什麼是泛化誤差呢?剛剛說我們最小化了 lo...