名詞解析之泛化誤差

摘要：以前在機器學習中一直使用經驗風險來逼近真實風險，但是事實上大多數情況經驗風險並不能夠準確逼近真實風險。後來業界就提出了泛化誤差的概念（generalization error）,在機器學習中泛化誤差是用來衡量乙個學習機器推廣未知資料的能力，即根據從樣本資料中學習到的規則能夠應用到新資料的能力。常用的計算方法是：用在訓練集上的誤差平均值-在測試集上的誤差平均值。

一：經驗風險

機器學習本質上是一種對問題真實模型的逼近，這種近似模型也叫做乙個假設。因為真實模型肯定是無法得到的，那我們的假設肯定與真實情況之間存在誤差，這種誤差或者誤差的積累也叫做風險。

在我們選擇了乙個假設（或者獲得乙個分類器）後，為了得到真實誤差的逼近，我們用分類器在樣本資料上的分類結果與樣本本身真實結果之間的差值來表示。這個差值叫做經驗風險。

以前機器學習中經常通過經驗風險的最小化作為目標,但是後來發現很多分類函式在樣本集合上能夠很輕易的獲得100%的正確率,但是在對真實資料的分類卻很糟。也表明了這種分類函式推廣能力（泛化能力）差。導致這種現象的原因是：經驗風險並不能夠真正的逼近真實風險,因為樣本集合的數目相對於真實世界要分類的資料來說就是九牛一毛。

之後統計學中就引入了泛化誤差界的概念。

二：泛化誤差界

泛化誤差界刻畫了學習演算法的經驗風險與期望風險之間偏差和收斂速度.

真實的風險應該由兩部分組成：

1：經驗風險,代表分類器在給定樣本上的誤差（可以精確計算）。

2：置信風險,代表我們可以在多大程度上信任分類器在未知資料上的分類結果（不可以精確計算）,因為不可以精確計算,所以只能給出乙個估計區間,也因為這個泛化誤差只能給出乙個上界。與置信風險相關的變數有兩個：

a)樣本數量,樣本數量越大表明我們的學習結果正確的可能性越大,此時置信風險越小。

b)vc維,分類函式的vc維越大,推廣能力越差,置信風險越大。

真實風險 ≤ 經驗風險 + 置信風險。

現在統計學習的目標就從經驗風險最小化變為經驗風險與置信風險之和最小化。

名詞解析之泛化誤差

名詞解析之泛化誤差

關於訓練誤差測試誤差泛化誤差

談談對泛化誤差的理解

名詞解析之泛化誤差

名詞解析之泛化誤差

關於訓練誤差 測試誤差 泛化誤差

談談對泛化誤差的理解

相關推薦

關於訓練誤差測試誤差泛化誤差