本次筆記基於mooc平台浙江大學的機器學習課程(
對於乙個訓練樣本集,i=1~n,若存在(w,b)使得使得滿足下式,則是線性可分問題。要求這樣的乙個超平面(在二維平面中是一條直線),則要滿足以下公式
證明過程如下:
首先要確認兩個事實,即
和
則可以根據線性可分問題的滿足式,用a來縮放(w,b),使得找到某個非零a,存在支援向量x0上有|wtx0+b|=1,在非支援向量x0上有|wtx0+b|>1,其中,支援向量是指平面內訓練集中離超平面最近距離向量。
根據上面的條件可得以下結論:
根據線性問題中要尋找的超平面的條件之一:margin最大,即d最大,所以問題就轉化為求||w||最小值,為了之後的求導方面可改變為求1/2*||w||的最小值,所以要求這樣乙個超平面即求(w,b),則只要在限制條件下求得1/2*||w||的最小值。
因為這是乙個凸優化問題,要麼有唯一解要麼無解,所以可以用梯度下降法求得其值。
對於線性不可分問題,首先要放鬆其限制條件,在這對每乙個訓練樣本(xi,yi)需要設定乙個鬆弛變數δi,所以線性可分問題裡的目標函式和限制條件就變成:
在支援向量機中解決線性不可分問題是通過將低維度對映到高緯度轉化成線性可分問題解決,比如下面的例子中,用對映函式φ(x)將二維向量轉化成五維向量:
這是乙個二維的非線性可分問題:
我們引入φ(x)使之實現二維向量到五維向量的對映,具體的函式如下:
則不同的訓練向量對映後的結果如下:
當確定(w,b)時,我們可以在高維下得到這樣的不等式集,根據下面的四個不等式可知,這是線性可分的:
所以我們有以下結論:
假設在m維空間中隨機取n個樣本,並隨機對每個訓練樣本賦予乙個標籤+1或-1,並假設這些訓練樣本線性可分的概率為p(m).
則當m區域無窮大時,p(m)=1,假設φ(x)以確定,則有如下結論:
其中,這裡的w也隨著維度的增高而增加,這裡的維度和φ(x)維度相同。
如何求解φ(x):引入核函式k(x1,x2)
許多時候很難甚至無法求得φ(x),事實上我們也不需要求解,只需要求得與其唯一對應的核函式就可以解決線性不可分問題。
核函式k(x1,x2)= φ(x1)tφ(x2),對於這樣的核函式必須滿足以下式子:
對於具體的線性不可分問題的條件轉化,用核函式代替φ(x)求解,涉及原問題到對偶問題的轉化。
原問題的基本形式有:
其對應的對偶問題的形式則是:
對於對偶問題目標函式的解釋是遍歷定義域內所有w,使函式l(w,a,ß)最小,確定這個最小值的w值,將其帶入得到的相關函式則是θ(a,ß)。
對於原問題和對偶問題有定理:假設w*是原問題的解,(a*,ß*)是對偶問題的解,則有f(w*)-θ(a*,ß*)>0,證明不難。並且定義了對偶差距為f(w*)-θ(a*,ß*)。
如果原問題目標函式是凸優化函式,限制條件是線性函式,則符合強對偶定理,即f(w*)=θ(a*,ß*),不難發現,線性不可分問題符合強對偶定理。
這裡有乙個ktt條件:若f(w*)=θ(a*,ß*),則i=1~k,要麼ai=0,要麼gi(w*)=0。
接下來是對於線性不可分問題從原問題到對偶問題的轉化,觀察上面的原問題的標準公式,我們先要把線性不可分的原問題轉化成標準形式:
然後通過(w,b, δi)分別求偏導數,令結果為0,最後化成對偶形式:
對於前面一直到核函式的引入我都還能掌握,但是後面的原函式和對偶函式的轉化我就並不能完全掌握了,只能記住結論而無法推導,同樣的,對於線性不可分問題的原函式到對偶函式的轉化也無法推導,只是記住了結論,雖然程式設計的時候不需要你深刻掌握原理。另外,我現在只是學習了理論知識,對於程式設計實踐並不能很好的掌握和運用。
機器學習筆記 六 支援向量機
對於給定的訓練集d yi 分類學習的初衷就是基於訓練集在樣本空間中找到乙個可以有效劃分樣本的超平面。可能存在很多可將樣本分開的超平面,選擇分類結果最魯棒 泛化能力最強的超平面便是支援向量機模型的重點。通過二維樣本點分布的圖示看,最直觀上,找到兩類樣本正中間的超平面是最佳的。如此,在樣本空間中,劃分超...
機器學習筆記三 支援向量機
給定訓練集d,在樣本空間上找到最魯棒的超平面,將不同類別的樣本分開。對於線性可分問題,超平面的線性方程為 優化目標 找到引數w和b在劃分正確的前提下使得間隔最大,即 上述問題等價於 此為支援向量機 svm 的基本型,將引數求解問題轉化為凸二次規劃問題,為了方便求解且易於推廣到非線性情況下的核函式,採...
機器學習筆記8 支援向量機(3 3)
scikit learn中的svm函式 機器學習庫scikit learn中也整合了svm的函式,可以方便的進行呼叫,可用來分類 回歸和異常點檢測。支援向量機的優點有 i 在高維空間效果很好 ii 當維度數大於樣本點數時,效果仍然不錯 iii 決策函式只取決於資料集中的支援向量,能夠減輕記憶體壓力 ...