統計學習理論是一種研究訓練樣本有限情況下的機器學習規律的學科。它可以看作是基於資料的機器學習問題的乙個特例,即有限樣本情況下的特例。統計學習理論從一些觀測(訓練)樣本出發,從而試圖得到一些目前不能通過原理進行分析得到的規律,並利用這些規律來分析客觀物件,從而可以利用規律來對未來的資料進行較為準確的**。例如,對全國未來幾年人口數量進行**,就需要先採集到過去幾年甚至幾十年的人口資料,並對其變化規律做出統計學方面的分析和歸納,從而得到乙個總體的**模型,這樣就可以對未來幾年的人口總體走勢作乙個大概的估計和**。顯然,這裡採集到的過去人口的資料越準確,年份越長,分析歸納得到的統計規律就越準確,對未來人口**就越接近真實水平。另外,如果只採集到了過去幾年的人口資料,那麼,這樣得到的統計模型無論如何也是不夠完美的。所以,不難發現,統計學習理論主要是研究以下三個問題: ①
學習的統計效能:通過有限樣本能否學習得到其中的一些規律? ②
學習演算法的收斂性:學習過程是否收斂?收斂的速度如何? ③
學習過程的複雜性:學習器的複雜性、樣本的複雜性、計算的複雜性如何?
如今,統計學習理論在模式分類、回歸分析、概率密度估計方面發揮著越來越重要的作用。
統計模式識別問題可以看做基於機器學習的乙個特例。而基於機器學習的方法是現代智慧型技術中十分重要的乙個方面,主要研究如何從一些樣本出發得出目前不能通過原理分析得到的規律,利用這些規律去分析客觀物件,對未來資料或無法觀測的資料進行**。統計學中關於估計的一致性、無偏性和估計方差的界等,以及分類錯誤率等漸近性特徵是實際應用中往往無法得不到滿足,而這種問題在高維空間時尤其如此。這實際上是包含模式識別和神經網路等在內的現有的機器學習理論和方法中的乙個根本問題。viadimir n.vapnik
等人在20
世紀60
年代就開始研究有限樣本情況下的機器學習問題,但由於當時這些研究尚不十分完善,在解決模式識別問題中往往區域保守,且數學上比較艱難,而直到
90年代以前並沒有提出能夠將其理論付諸實現的較好方法。加之當時正處在其它學習方法飛速發展的時期,因此這些研究一直沒有得到充分的重視。直到
90年代中,有限樣本情況下的機器學習理論研究研究逐漸成熟起來,形成了乙個較完善的理論體系
---統計學習理論。而同時,神經網路等較新興的機器學習方法的研究則遇到了一些重要的困難,比如如何確定網路結構的問題、過學習與欠學習的難題、區域性極小點的問題等。在這種情況下,試圖從更本質上研究機器學習問題的統計學習理論逐步得到重視。
1992-2023年,在統計學習理論的基礎上發展出了一種新的模式識別方法----支援向量機(support vector machine, svm),在解決小樣本問題,非線性及高維模式識別問題中表現出了許多特有的優勢,並能夠推廣應用到函式擬合等其他機器學習問題中。雖然統計學習理論和支援向量機方法尚有很多問題需要進一步研究,但很多學者認為,它們正在成為模式識別和神經網路研究之後機器學習領域新的研究熱點,並將推動機器學習理論和技術的重大發展。
基於統計學習理論的支援向量機演算法研究
blog 基於統計學習理論的支援向量機演算法研究 1 理論背景基於資料的機器學習是現代智慧型技術中的重要方面,研究從觀測資料 樣本 出發尋找規律,利用這些規律對未來資料或無法觀測的資料進行 迄今為止,關於機器學習還沒有一種被共同接受的理論框架,關於其實現方法大致可以分為三種 3 第一種是經典的 引數...
學習理論 PAC理論
1 基本概念 2 pac理論 3 vc維 4 極大似然,最大後驗概率,貝葉斯估計 5 模型評估與評價指標 6 模型診斷調參 概率近似正確 pac 理論是從概率的角度來衡量模型的正確率,給出了pac可辨識,樣本複雜度界,誤差上界。偏差 方差 偏差和方差是機器學習中很重要的兩個概念,在分析模型時對應於欠...
學習理論 VC維
1 基本概念 2 pac理論 3 vc維 4 極大似然,最大後驗概率,貝葉斯估計 5 模型評估與評價指標 6 模型診斷調參 在pac理論中,我們用假設空間的取值n nn來描述模型的複雜度,然而很多時候假設空間的取值是無限的,比如線性模型中模型屬於連續空間,我們無法用取值來衡量模型的複雜度,vc維的主...