SVM入門(二)線性分類器Part 1

2021-06-06 08:19:46 字數 1209 閱讀 7390

線性分類器(一定意義上,也可以叫做感知機) 是最簡單也很有效的分類器形式.在乙個線性分類器中,可以看到svm形成的思路,並接觸很多svm的核心概念.

用乙個二維空間裡僅有兩類樣本的分類問題來舉個小例子。如圖所示

­c1和c2是要區分的兩個類別,在二維平面中它們的樣本如上圖所示。中間的直線就是乙個分類函式,它可以將兩類樣本完全分開。一般的,如果乙個線性函式能夠將樣本完全正確的分開,就稱這些資料是線性可分的,否則稱為非線性可分的。

什麼叫線性函式呢?在一維空間裡就是乙個點,在二維空間裡就是一條直線,三維空間裡就是乙個平面,可以如此想象下去,如果不關注空間的維數,這種線性函式還有乙個統一的名稱——超平面(hyper plane)!

實際上,乙個線性函式是乙個實值函式(即函式的值是連續的實數),而我們的分類問題(例如這裡的二元分類問題——回答乙個樣本屬於還是不屬於乙個類別的問題)需要離散的輸出值,例如用1表示某個樣本屬於類別c1,而用0表示不屬於(不屬於c1也就意味著屬於c2),這時候只需要簡單的在實值函式的基礎上附加乙個閾值即可,通過分類函式執行時得到的值大於還是小於這個閾值來確定類別歸屬。 例如我們有乙個線性函式

g(x)=wx+b

我們可以取閾值為0,這樣當有乙個樣本xi需要判別的時候,我們就看g(xi)的值。若g(xi)>0,就判別為類別c1,若g(xi)<0,則判別為類別c2(等於的時候我們就拒絕判斷,呵呵)。此時也等價於給函式g(x)附加乙個符號函式sgn(),即f(x)=sgn [g(x)]是我們真正的判別函式。

關於g(x)=wx+b這個表示式要注意三點:一,式中的x不是二維座標系中的橫軸,而是樣本的向量表示,例如乙個樣本點的座標是(3,8),則xt=(3,8) ,而不是x=3(一般說向量都是說列向量,因此以行向量形式來表示時,就加上轉置)。二,這個形式並不侷限於二維的情況,在n維空間中仍然可以使用這個表示式,只是式中的w成為了n維向量(在二維的這個例子中,w是二維向量,注意這裡的w嚴格的說也應該是轉置的形式,為了表示起來方便簡潔,以下均不區別列向量和它的轉置,聰明的讀者一看便知);三,g(x)不是中間那條直線的表示式,中間那條直線的表示式是g(x)=0,即wx+b=0,我們也把這個函式叫做分類面。

實際上很容易看出來,中間那條分界線並不是唯一的,我們把它稍微旋轉一下,只要不把兩類資料分錯,仍然可以達到上面說的效果,稍微平移一下,也可以。此時就牽涉到乙個問題,對同乙個問題存在多個分類函式的時候,哪乙個函式更好呢?顯然必須要先找乙個指標來量化「好」的程度,通常使用的都是叫做「分類間隔」的指標。下一節我們就仔細說說分類間隔,也補一補相關的數學知識。

(二)線性分類器 上

線性分類概述 這次我們介紹一種更強大的方法來解決影象分類問題,這個方法主要有兩部分 評分函式,它將對影象進行每個類別的評分。另外一部分是損失函式,它將衡量類別得分與真實標籤之間的差異。最終將影象分類問題轉化為乙個最優化問題,在優化過程中,一步一步更新評分函式的引數來減低我們的損失函式值。從影象到標籤...

(二)線性分類器 中

線性分類器分3個小節介紹,本章內容接上一章 二 線性分類器 上 損失函式 在上一節,我們定義了從影象到每個類別的評分函式。對於評分函式,我們可以調整引數w和b,使的評分函式的值與真實類別一致,即評分函式在影象的真實類別有最高的評分。這就用到了損失函式 代價函式 目標函式 損失函式是用來衡量評分函式的...

SVM入門 線性分類器(2)

線性分類器 一定意義上,也可以叫做感知機 是最簡單也很有效的分類器形式.在乙個線性分類器中,可以看到svm形成的思路,並接觸很多svm的核心概念.用乙個二維空間裡僅有兩類樣本的分類問題來舉個小例子。如圖所示 c1和c2是要區分的兩個類別,在二維平面中它們的樣本如上圖所示。中間的直線就是乙個分類函式,...