支援向量機,因其英文名為suport vector machine,故簡稱svm,通俗的來講,它是一種二分類模型,其基本模型定義為:特徵空間上的間隔最大的線性分類器,其學習策略是:間隔最大化,最終可以轉化為乙個凸二次規劃問題的求解。
理解svm,首要問題是理解:線性分類器。給定一些資料,它們分屬於兩個不同的類,現在要找到乙個線性分類器把這些資料分成兩類。
如果用x
xx表示資料點,用y
yy表示類別(y可以
取1或者
−1,分
別代表了
正負樣本
y可以取1或者-1,分別代表了正負樣本
y可以取1或
者−1,
分別代表
了正負樣
本),乙個線性分類器的學習目標是在n維空間中找到乙個超平面(hyper plane),這個超平面的方程可以表示為(其中w,b是要學習的引數,w抽象為表示n維特徵(x向量)上的權重,b為乙個偏置值):
w tx
+b=0
w^tx+b=0
wtx+b=
0關於y
yy的值為什麼取1和−
11和-1
1和−1
,此問題**於logistic回歸。
logistic回歸目的是從特徵中學習出乙個0/1
0/10/
1分類模型,而這個模型是將特徵的線性組合作為自變數,由於自變數的取值範圍是負無窮到正無窮。因此,使用logistic函式(sigmoid函式)將自變數對映到(0,1)上,對映後的值 被認為是屬於y=1
y=1y=
1的概率。
假設函式:
h θ(
x)=g
(θtx
)=11
+e−θ
txh_\theta(x)=g(\theta^tx)=\frac}
hθ(x)
=g(θ
tx)=
1+e−
θtx1
其中x是n維向量,函式g就是logisitic函式,θ為(
θ0,θ
1,θ2
,...
,θn)
\theta為(\theta_0,\theta_1, \theta_2, ...,\theta_n)
θ為(θ0
,θ1
,θ2
,...
,θn
)是一組對特徵x
xx的引數。
其中g (z
可以看到,將x
xx的所有值都對映到了(0−
1)(0-1)
(0−1
)之間。
sigmoid函式增加了線性模型的魯棒性,利用概率的形式避免了難以準確分類的情況。
接下來,嘗試把logistic回歸做乙個變型,首先將標籤y=0變為y=-1,然後將θtx
=θ0+
θ1x1
+...
+θnx
n\theta^tx=\theta_0+\theta_1 x_1+...+\theta_n x_n
θtx=θ0
+θ1
x1
+...
+θn
xn中的θ
0\theta_0
θ0替換為b
bb,將後面的θ1x
1+..
.+θn
xn\theta_1 x_1+...+\theta_n x_n
θ1x1
+...
+θn
xn替換成wtx
w^tx
wtx,如此就有了θtx
=wtx
+b\theta^tx=w^tx+b
θtx=wt
x+b,因此除了y的變化,線性分類器和logistic回歸形式表示沒有區別。
舉乙個簡單的例子作為引入:如圖所示,現有乙個二維平面,平面上有兩種不同的資料,假設這些資料的線性可分的,其中的超平面是一條直線。這個超平面可以用分類函式f(x
)=wt
+bf(x)=w^t+b
f(x)=w
t+b表示,當f(x
)f(x)
f(x)
等於0時,x便位於超平面上,而f(x
)>
0f(x)>0
f(x)
>
0對應的點y=1
y=1y=
1,反之f(x
)<
0f(x)<0
f(x)
<
0的點y=−
1y=-1
y=−1
,如圖所示:
機器學習中的數學知識( )梯度下降數學理論
機器學習中的數學知識 微積分 f a limx 0f a h f a h常見的函式的導數 x a axa 1 e x ex ax l n a ax ln x 1x dsin x dx c os x dc os x dx sin x 導數法則 f g f g f g f g fg f g f g fg...
PCA及白化的數學理解
pca principal components analysis 是一種降維和去除相關性的方法,它通過方差來評價特徵的價值,認為方差大的特徵包含資訊多,應予以保留。首先對每一維特徵0均值處理,求得特徵的協方差矩陣a,那麼 在分析方差時,所以通過協方差矩陣特徵值大小來看方差大小。所以將協方差矩陣相似...
機器學習 如何理解svm的損失函式
是用來衡量乙個 器在對輸入資料進行分類 時的 壞。損失值越小,分類器的效果越好,越能反映輸入資料與輸出類別標籤的關係 雖然我們的模型有時候會過擬合 這是由於訓練資料被過度擬合,導致我們的模型失去了泛化能力 相反,損失值越大,我們需要花更多的精力來提公升模型的準確率。就引數化學習而言,這涉及到調整引數...