機器學習演算法 支援向量機

2021-09-26 05:43:18 字數 1799 閱讀 1107

適用問題:二分類問題

模型型別:判別模型

模型特點:分離超平面、核技巧

學習策略:極小化正則化合頁損失、軟體額最大化

學習演算法:概率計算公式、em演算法

定義:支援向量機(support vector machine, svm)是一類按監督學習方式對資料進行二元分類的廣義線性分類器,其決策邊界是對學習樣本求解的最大邊距超平面。svm使用鉸鏈損失函式(hinge loss)計算經驗風險並在求解系統中加入了正則化項以優化結構風險,是乙個具有稀疏性和穩健性的分類器 。svm可以通過核方法進行非線性分類,是常見的核學習方法之一。

原理:

線性可分性(linear separability)

在分類問題中給定輸入資料和學習目標:

,其中輸入資料的每個樣本都包含多個特徵並由此構成特徵空間:

,而學習目標為二元變數示負類(negative class)和正類(positive class)。

若輸入資料所在的特徵空間存在作為決策邊界(decision boundary)的超平面將學習目標按正類和負類分開,並使任意樣本的點到平面距離大於等於1 :

則稱該分類問題具有線性可分性,引數分別為超平面的法向量和截距。

滿足該條件的決策邊界實際上構造了2個平行的超平面作為間隔邊界以判別樣本的分類:

所有在上間隔邊界上方的樣本屬於正類,在下間隔邊界下方的樣本屬於負類。兩個間隔邊界的距離被定義為邊距(margin),位於間隔邊界上的正類和負類樣本為支援向量(support vector)。

特點:

(1)非線性對映是svm方法的理論基礎,svm利用內積核函式代替向高維空間的非線性對映;

(2)對特徵空間劃分的最優超平面是svm的目標,最大化分類邊際的思想是svm方法的核心;

(3)支援向量是svm的訓練結果,在svm分類決策中起決定作用的是支援向量。

(4)svm 是一種有堅實理論基礎的新穎的小樣本學習方法。它基本上不涉及概率測度及大數定律等,因此不同於現有的統計方法。從本質上看,它避開了從歸納到演繹的傳統過程,實現了高效的從訓練樣本到預報樣本的「轉導推理」,大大簡化了通常的分類和回歸等問題。

(5)svm 的最終決策函式只由少數的支援向量所確定,計算的複雜性取決於支援向量的數目,而不是樣本空間的維數,這在某種意義上避免了「維數災難」。

(6)少數支援向量決定了最終結果,這不但可以幫助我們抓住關鍵樣本、「剔除」大量冗餘樣本,而且注定了該方法不但演算法簡單,而且具有較好的「魯棒」性。這種「魯棒」性主要體現在:

①增、刪非支援向量樣本對模型沒有影響;

②支援向量樣本集具有一定的魯棒性;

③有些成功的應用中,svm 方法對核的選取不敏感

不足:

(1) svm演算法對大規模訓練樣本難以實施

由於svm是借助二次規劃來求解支援向量,而求解二次規劃將涉及m階矩陣的計算(m為樣本的個數),當m數目很大時該矩陣的儲存和計算將耗費大量的機器記憶體和運算時間。

(2)用svm解決多分類問題存在困難

經典的支援向量機演算法只給出了二類分類的演算法,而在資料探勘的實際應用中,一般要解決多類的分類問題。可以通過多個二類支援向量機的組合來解決。主要有一對多組合模式、一對一組合模式和svm決策樹;再就是通過構造多個分類器的組合來解決。主要原理是克服svm固有的缺點,結合其他演算法的優勢,解決多類問題的分類精度。如:與粗集理論結合,形成一種優勢互補的多類問題的組合分類器。

機器學習演算法 支援向量機SVM

在上兩節中,我們講解了機器學習的決策樹和k 近鄰演算法,本節我們講解另外一種分類演算法 支援向量機svm。svm是迄今為止最好使用的分類器之一,它可以不加修改即可直接使用,從而得到低錯誤率的結果。案例背景 從前有兩個地主,他們都是占山為王的一方霸主。本來各自吃飽自己的飯萬事無憂,可是人心不知足蛇吞象...

機器學習筆記 支援向量機演算法

基本思想 定義在特徵空間上的間隔最大的線性分類器。主要學習策略為使得間隔最大化,可形式化為乙個求解二次規劃的問題,等價於正則化的合頁損失函式的最小化問題。分類 線性 線性可分支援向量機 線性支援向量機 非線性 非線性支援向量機 當訓練資料線性可分時,通過硬間隔最大化,學習乙個線性的分類器,即線性可分...

機器學習 支援向量機

線性可分支援向量機 1.回顧感知機模型 2.函式間隔與幾何間隔 3.支援向量 4.svm模型目標函式與優化 5.線性可分svm的演算法過程 線性可分支援向量機 1.軟間隔最大化 2.線性分類svm的軟間隔最大化目標函式的優化 3.軟間隔最大化時的支援向量 4.軟間隔最大化的線性可分svm的演算法過程...