線性可分支援向量機(二):**性可分支援向量機(一)中,我們研究的是最理想的情況,即被分類的兩類樣本點沒有交叉,能夠完全被分離超平面給分離。但實際上的情況一般都不是那麼理想,可能找不出乙個完美的分離超平面。有可能有樣本點位於分離超平面的另一側。此時,我們所追求的就是軟間隔最大化。
軟間隔最大化
根據博文一的分析,在尋找到支援向量並做出超平面後,對於正確分類的點,它必定滿足
。現在存在一些不能滿足函式間隔大於1的點,可以引入乙個鬆弛變數ξi,使得
。可以看出,這個ξi實際上就是誤分類點到正確分類的間隔邊界的距離。與此同時,要在目標優化函式上加上乙個代價,則目標函式變為了
。實際上,這個等式包含兩項,第一項代表了結構風險最小化,第二項則代表了經驗風險最小化。目標函式裡的c>0,被叫做懲罰係數,它用來調和兩個風險之間的關係。所以,這個目標函式包含了兩層意思,一是希望間隔盡量大,二是使誤分類個數點盡量少。
線性不可分的支援向量機問題就變為了如下凸二次規劃問題:--
,i=1,2,…,n
,i=1,2,…,n
以上二次規劃問題的拉格朗日函式為:
同樣的,先求l對ω,b,ξ的偏倒數,得到
將以上三式帶回到拉格朗日函式中,最後得到原問題的對偶問題:--
從對偶問題可以看到,原式中的ξi,已經被消掉了。
從三個約束可以得出關於α的約束:0<= αi <=c。
對比一下博文一硬體隔支援向量機,唯一差別就在於對αi的約束上。自然的,求解過程也類似,不同地方在於對於硬間隔,選取αi時只考慮它大於0就行。而對於軟間隔,則還必須滿足αi<=c這個約束條件。
具體計算過程可參考博文一。
合頁損失函式
首先注意乙個問題,對於鬆弛變數ξi,如果乙個樣本點被正確分類了,那麼對應的ξi應該為0。
根據約束條件,
,則,原來的優化問題可以表示為:
上邊第二項代表值為正時為它本身,值為負時等於0,其意義在於當樣本點被正確分類且函式間隔大於1時,損失為0,否則損失為
。而這個函式,就被稱為合頁損失函式,其名字是根據函式影象形狀而得稱的。
線性可分支援向量機
支援向量機 support vector machines,svm 是一種二類分類模型。根據模型的複雜程度可以分為線性可分支援向量機 線性支援向量機及非線性支援向量機。簡單模型是複雜模型的基礎,也是複雜模型的特殊情況。本文假設訓練資料線性可分,介紹了線性可分支援向量機如何通過硬間隔最大化 hard ...
線性可分支援向量機筆記
支援向量機是一種二分類分類器。給一堆資料 x i,yi 並假設它們是線性可分的。線性可分支援向量機的目的就是從這堆資料中學到乙個分類超平面wx b 0 利用這個平面進行分類。那麼如何得到這個分類超平面呢?假設這個分類超平面我們已經得到了,為wx b 0 那麼對於點 x i,yi 我們可以用 w xi...
SVM筆記(三) 線性可分支援向量機
如果訓練輸入線性可分,通過應間隔最大化學習得到的線性分類器稱為線性可分支援向量機。假設特徵空間上的訓練資料集 t 其中xi 表示第i個特徵向量,yi 為xi 的類標記。學習目標是在特徵空間找到乙個分離超平面 w x b 0 可以將正負樣例分開,即正負樣例分布在超平面的兩側。定義超平面關於訓練資料集t...