1:過擬合(overfitting),顧名思義,某種演算法產生的分類器能夠百分百正確分類訓練樣本,而對於新出現的樣本,它都認為不屬於這個類別,實際資料不完全是訓練樣本能夠覆蓋的,訓練樣本只是其中一小部分,這導致其在新樣本的分類上準確率較低。
如圖,可以看出在a中雖然完全的擬合了樣本資料,但對於b中的測試資料分類準確度很差。而c雖然沒有完全擬合樣本資料,但在d中對於測試資料的分類準確度卻很高。過擬合問題往往是由於訓練資料少等原因造成的。
2:經驗風險,機器學習本質上就是一種對問題真實模型的逼近,這種近似模型也叫做乙個假設。因為真實模型肯定無法得到,我們的假設肯定與真實情況之間存在誤差,這種誤差或者誤差的積累也叫風險。
在我們選擇了乙個假設(或得到了乙個分類器)後,為了得到真是誤差的逼近,我們用分類器在樣本資料上的分類結果與樣本本身真實結果之間的差值來表示。這個差值叫做經驗風險。
以前機器學習中經常通過經驗風險的最小化作為目標,但是後來發現很多分類函式在樣本集合上能夠很輕易的獲得100%的正確率,但在對真實資料的分類卻很糟。也表明了這種分類函式推廣能力(泛化能力)差。導致這種現象的原因是:經驗風險並不能夠真正的逼近真實風險,因為樣本集合的數目相對於真實世界要分類的資料來說就是九牛一毛。經驗風險最小化原則只在這佔很小比例的樣本上做到沒有誤差,當然不能保證在更大比例的真實文字上也沒有誤差。之後統計學引入了泛化誤差的概念。
3:泛化誤差,如上,經驗風險最小化目標任解決不了分類器泛化能力差的問題後,業界提出泛化誤差的概念(generalization error),在機器學習中泛化誤差是用來衡量乙個學習機器推廣未知資料的能力,即根據從樣本資料中學習到的規則能夠應用到新資料的能力。
4:泛化誤差界,是指真實風險應該由兩部分內容刻畫,一是經驗風險,代表了分類器在給定樣本上的誤差;二是置信風險,代表我們在多大程度上可以信任分類器在未知文字上分類的結果。很顯然,第二部分是沒有辦法精確計算的,只能給出乙個估計區間,也使得整個誤差只能計算上界,無法精確量化,所以叫泛化誤差界。
置信風險與兩個量有關,一是樣本數量,顯然給定的樣本數量越大,我們的學習結果越有可能正確,此時置信風險越小;二是分類函式的vc維,顯然vc維越大,推廣能力越差,置信風險會變大。
泛化誤差界的公式為:r(w)≤remp(w)+ф(n/h)
公式中r(w)就是真實風險,remp(w)就是經驗風險,ф(n/h)就是置信風險。統計學習的目標從經驗風險最小化變為了尋求經驗風險與置信風險的和最小,即結構風險最小。svm正是這樣一種努力最小化結構風險的演算法。
5:vc維,上面提到了vc維(vapnik-chervonenkis dimension),還是vapnik大牛,度娘給出的解釋:vc維(vapnik-chervonenkis dimension)的概念是為了研究學習過程一致收斂的速度和推廣性,由統計學理論定義的有關函式集學習效能的乙個重要指標。vc維反映了函式集的學習能力,vc維越大則學習機器越複雜(容量越大)。所以vc維可以簡單理解為問題的複雜度,vc維越高,問題越複雜。正是因為svm關注的是vc維,後面我們可以看到,svm解決問題的時候,和樣本的維數是無關的(甚至樣本是上萬維的都可以,這使得svm很適合用來解決文字分類的問題,當然,有這樣的能力也因為引入了核函式)。核函式將線性不可分問題對映到高維空間的線性可分,而在n維空間中線形分類器和線形實函式的vc維是n+1,因此這裡的確是與樣本的維數無關。
**:
資料探勘 DM 基本概念
問題 資料總量 式增加,如何從中提取真正有價值的資訊,產生了新的領域 dm 幾個名詞 1 data mining 資料探勘 2 knowledge discovery 知識發現 3 machine learning 機器學習 機器學習是資料探勘的乙個重要工具 4 knowledge discover...
關聯規則挖掘 基本概念
本文主要來自 資料倉儲和資料探勘 一書,這本書講的和維基百科裡的非常相似,懷疑是從某本外文書籍裡翻譯過來的。關聯規則挖掘 association rule mining 是資料探勘中最活躍的研究方法之一,可以用來發現事情之間的聯絡,最早是為了發現超市交易資料庫中不同的商品之間的關係。這裡有一則沃爾瑪...
資料探勘學習筆記 關於資料的基本概念
屬性 按照屬性的型別分 1.定性的 分類的 標稱 nominal 序數 ordinal 2.定量的 數值的 區間 interval 比率 ratio 按照屬性值的個數分 離散的 discrete 連續的 continuous 資料質量 因為存在測量誤差及資料收集錯誤 如遺漏資料物件或遺漏資料屬性,或...