基於統計學習理論的支援向量機演算法研究

2021-08-29 03:24:43 字數 4018 閱讀 6247

**網友blog:

基於統計學習理論的支援向量機演算法研究 1 理論背景基於資料的機器學習是現代智慧型技術中的重要方面,研究從觀測資料(樣本)出發尋找規律,利用這些規律對未來資料或無法觀測的資料進行**。迄今為止,關於機器學習還沒有一種被共同接受的理論框架,關於其實現方法大致可以分為三種[3]:第一種是經典的(引數)統計估計方法。包括模式識別、神經網路等在內,現有機器學習方法共同的重要理論基礎之一是統計學。引數方法正是基於傳統統計學的,在這種方法中,引數的相關形式是已知的,訓練樣本用來估計引數的值。這種方法有很大的侷限性,首先,它需要已知樣本分佈形式,這需要花費很大代價,還有,傳統統計學研究的是樣本數目趨於無窮大時的漸近理論,現有學習方法也多是基於此假設。但在實際問題中,樣本數往往是有限的,因此一些理論上很優秀的學習方法實際中表現卻可能不盡人意。第二種方法是經驗非線性方法,如人工神經網路(ann)。這種方法利用已知樣本建立非線性模型,克服了傳統引數估計方法的困難。但是,這種方法缺乏一種統一的數學理論。與傳統統計學相比,統計學習理論(statistical learning theory或slt)是一種專門研究小樣本情況下機器學習規律的理論。該理論針對小樣本統計問題建立了一套新的理論體系,在這種體系下的統計推理規則不僅考慮了對漸近效能的要求,而且追求在現有有限資訊的條件下得到最優結果。v. vapnik等人從

六、七十年代開始致力於此方面研究[1],到九十年代中期,隨著其理論的不斷發展和成熟,也由於神經網路等學習方法在理論上缺乏實質性進展,統計學習理論開始受到越來越廣泛的重視。統計學習理論的乙個核心概念就是vc維(vc dimension)概念,它是描述函式集或學習機器的複雜性或者說是學習能力(capacity of the machine)的乙個重要指標,在此概念基礎上發展出了一系列關於統計學習的一致性(consistency)、收斂速度、推廣效能(generalization performance)等的重要結論。統計學習理論是建立在一套較堅實的理論基礎之上的,為解決有限樣本學習問題提供了乙個統一的框架。它能將很多現有方法納入其中,有望幫助解決許多原來難以解決的問題(比如神經網路結構選擇問題、區域性極小點問題等);同時,這一理論基礎上發展了一種新的通用學習方法──支援向量機(support vector machine或svm),已初步表現出很多優於已有方法的效能。一些學者認為,slt和svm正在成為繼神經網路研究之後新的研究熱點,並將推動機器學習理論和技術有重大的發展。支援向量機方法是建立在統計學習理論的vc維理論和結構風險最小原理基礎上的,根據有限的樣本資訊在模型的複雜性(即對特定訓練樣本的學習精度,accuracy)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力(generalizatin ability)。支援向量機方法的幾個主要優點有: 1. 它是專門針對有限樣本情況的,其目標是得到現有資訊下的最優解而不僅僅是樣本數趨於無窮大時的最優值; 2. 演算法最終將轉化成為乙個二次型尋優問題,從理論上說,得到的將是全域性最優點,解決了在神經網路方法中無法避免的區域性極值問題; 3. 演算法將實際問題通過非線性變換轉換到高維的特徵空間(feature space),在高維空間中構造線性判別函式來實現原空間中的非線性判別函式,特殊性質能保證機器有較好的推廣能力,同時它巧妙地解決了維數問題,其演算法複雜度與樣本維數無關;在svm方法中,只要定義不同的內積函式,就可以實現多項式逼近、貝葉斯分類器、徑向基函式(radial basic function或rbf)方法、多層感知器網路等許多現有學習演算法。統計學習理論從七十年代末誕生,到九十年代之前都處在初級研究和理論準備階段,近幾年才逐漸得到重視,其本身也趨向完善,並產生了支援向量機這一將這種理論付諸實現的有效的機器學習方法。目前,svm演算法在模式識別、回歸估計、概率密度函式估計等方面都有應用。例如,在模式識別方面,對於手寫數字識別、語音識別、人臉影象識別、文章分類等問題,svm演算法在精度上已經超過傳統的學習演算法或與之不相上下。目前,國際上對這一理論的討論和進一步研究逐漸廣泛,而我國國內尚未在此領域開展研究,因此我們需要及時學習掌握有關理論,開展有效的研究工作,使我們在這一有著重要意義的領域中能夠盡快趕上國際先進水平。由於slt理論和svm方法尚處在發展階段,很多方面尚不完善,比如:許多理論目前還只有理論上的意義,尚不能在實際演算法中實現;而有關svm演算法某些理論解釋也並非完美(j.c.burges在[2]中就曾提到結構風險最小原理並不能嚴格證明svm為什麼有好的推廣能力);此外,對於乙個實際的學習機器的vc維的分析尚沒有通用的方法;svm方法中如何根據具體問題選擇適當的內積函式也沒有理論依據。因此,在這方面我們可做的事情是很多的。 2方法介紹 svm是從線性可分情況下的最優分類面發展而來的,基本思想可用圖1的兩維情況說明。圖中,實心點和空心點代表兩類樣本,h為分類線,h1、h2分別為過各類中離分類線最近的樣本且平行於分類線的直線,它們之間的距離叫做分類間隔(margin)。所謂最優分類線就是要求分類線不但能將兩類正確分開(訓練錯誤率為0),而且使分類間隔最大。分類線方程為 ,我們可以對它進行歸一化,使得對線性可分的樣本集 , , , ,滿足 (1) 此時分類間隔等於2/||w||,使間隔最大等價於使||w||2最小。滿足條件(1)且使 最小的分類面就叫做最優分類面,h1、h2上的訓練樣本點就稱作支援向量。利用lagrange優化方法可以把上述最優分類面問題轉化為其對偶問題[2],即:在約束條件 , (2a) 和 ai ³ 0 i=1,¼n (2b) 下對ai求解下列函式的最大值: (3) ai為原問題中與每個約束條件(1)對應的lagrange乘子。這是乙個不等式約束下二次函式尋優的問題,存在唯一解。容易證明,解中將只有一部分(通常是少部分)ai不為零,對應的樣本就是支援向量。解上述問題後得到的最優分類函式是 , (4) 式中的求和實際上只對支援向量進行。b*是分類閾值,可以用任乙個支援向量(滿足(1)中的等號)求得,或通過兩類中任意一對支援向量取中值求得。對非線性問題,可以通過非線性變換轉化為某個高維空間中的線性問題,在變換空間求最優分類面。這種變換可能比較複雜,因此這種思路在一般情況下不易實現。但是注意到,在上面的對偶問題中,不論是尋優目標函式(3)還是分類函式(4)都只涉及訓練樣本之間的內積運算 。設有非線性對映φ : rd ® h將輸入空間的樣本對映到高維(可能是無窮維)的特徵空間h中。當在特徵空間h中構造最優超平面時,訓練演算法僅使用空間中的點積,即φ(xi).φ(xj),而沒有單獨的φ(xi)出現。因此,如果能夠找到乙個函式k使得k( xi , xj )=φ(xi).φ(xj),這樣,在高維空間實際上只需進行內積運算,而這種內積運算是可以用原空間中的函式實現的,我們甚至沒有必要知道變換φ的形式。根據泛函的有關理論,只要一種核函式k( xi,xj)滿足mercer條件,它就對應某一變換空間中的內積。因此,在最優分類麵中採用適當的內積函式k( xi,xj)就可以實現某一非線性變換後的線性分類,而計算複雜度卻沒有增加,此時目標函式(3)變為: , (5) 而相應的分類函式也變為 , (6) 這就是支援向量機。這一特點提供了解決演算法可能導致的「維數災難」問題的方法:在構造判別函式時,不是對輸入空間的樣本作非線性變換,然後在特徵空間中求解;而是先在輸入空間比較向量(例如求點積或是某種距離),對結果再作非線性變換[9]。這樣,大的工作量將在輸入空間而不是在高維特徵空間中完成。svm分類函式形式上類似於乙個神經網路,輸出是s中間節點的線性組合,每個中間節點對應乙個支援向量,如圖2所示。函式k稱為點積的卷積核函式,根據[2],它可以看作在樣本之間定義的一種距離。 圖2 支援向量機示意圖 顯然,上面的方法在保證訓練樣本全部被正確分類,即經驗風險remp為0的前提下,通過最大化分類間隔來獲得最好的推廣效能。如果希望在經驗風險和推廣效能之間求得某種均衡,可以通過引入正的鬆弛因子ξi來允許錯分樣本的存在。這時,約束(1)變為 (7) 而在目標——最小化 ——中加入懲罰項 ,這樣,wolf對偶問題可以寫成: maximize: (8) s.t. (9a) 0 £ ai £ c i=1,¼n (9b) 這就是svm方法的最一般的表述。為了方便後面的陳述,這裡我們對對偶問題的最優解做一些推導。定義 (10) (11) 對偶問題的lagrange函式可以寫成: (12) kkt條件為 (13a) (13b) mi (ai - c ) = 0 " i (13c) 由此,我們可以推導出如下關係式: l 若ai = 0 則 di ³ 0 mi = 0 þ (fi - bi )yi ³ 0 (14a) l 若0 < ai < c 則 di = 0 mi = 0 þ (fi - bi )yi = 0 (14b) l 若 ai = c 則 di = 0 mi ³ 0 þ (fi - bi )yi £ 0 (14c) 由於kkt條件是最優解應滿足的充要條件[6],所以目前提出的一些演算法幾乎都是以是否違反kkt條件作為迭代策略的準則。

統計學習理論簡介

統計學習理論是一種研究訓練樣本有限情況下的機器學習規律的學科。它可以看作是基於資料的機器學習問題的乙個特例,即有限樣本情況下的特例。統計學習理論從一些觀測 訓練 樣本出發,從而試圖得到一些目前不能通過原理進行分析得到的規律,並利用這些規律來分析客觀物件,從而可以利用規律來對未來的資料進行較為準確的 ...

統計學習方法 支援向量機之非線性支援向量機

前篇 統計學習方法 支援向量機之線性支援向量機 核技巧應用到支援向量機,其基本想法就是 如果對希爾伯特空間與核函式不太了解可以參考 h h為特徵空間 希爾伯特空間 中學習線性支援向量機,我們只需要知道特徵空間中的向量內積 x z x z x z 就可以了,即只要有核函式k x z k x,z k x...

《統計學習方法》 7 支援向量機

第7章 svm 支援向量機 support vector machines,svm 的基本模型定義是在特徵空間上的間隔最大的線性分類器,它的學習策略就是間隔最大化。支援向量機的模型由簡到難分為 線性可分支援向量機 硬間隔最大化 線性支援向量機 軟間隔最大化 非線性支援向量機 核函式 7.1 線性可分...