生存?還是毀滅?——哈姆雷特
可分?還是不可分?——支援向量機
之前一直在討論的線性分類器,器如其名(汗,這是什麼說法啊),只能對線性可分的樣本做處理。如果提供的樣本線性不可分,結果很簡單,線性分類器的求解程式會無限迴圈,永遠也解不出來。這必然使得它的適用範圍大大縮小,而它的很多優點我們實在不原意放棄,怎麼辦呢?是否有某種方法,讓線性不可分的資料變得線性可分呢?
有!其思想說來也簡單,來用乙個二維平面中的分類問題作例子,你一看就會明白。事先宣告,下面這個例子是網路早就有的,我一時找不到原作者的正確資訊,在此借用,並加進了我自己的解說而已。
例子是下面這張圖:
我們把橫軸上端點a和b之間紅色部分裡的所有點定為正類,兩邊的黑色部分裡的點定為負類。試問能找到乙個線性函式把兩類正確分開麼?不能,因為二維空間裡的線性函式就是指直線,顯然找不到符合條件的直線。
但我們可以找到一條曲線,例如下面這一條:
顯然通過點在這條曲線的上方還是下方就可以判斷點所屬的類別(你在橫軸上隨便找一點,算算這一點的函式值,會發現負類的點函式值一定比0大,而正類的一定比0小)。這條曲線就是我們熟知的二次曲線,它的函式表示式可以寫為:
問題只是它不是乙個線性函式,但是,下面要注意看了,新建乙個向量y和a:
這樣g(x)就可以轉化為f(y)=,你可以把y和a分別回帶一下,看看等不等於原來的g(x)。用內積的形式寫你可能看不太清楚,實際上f(y)的形式就是:
g(x)=f(y)=ay
在任意維度的空間中,這種形式的函式都是乙個線性函式(只不過其中的a和y都是多維向量罷了),因為自變數y的次數不大於1。
看出妙在哪了麼?原來在二維空間中乙個線性不可分的問題,對映到四維空間後,變成了線性可分的!因此這也形成了我們最初想解決線性不可分問題的基本思路——向高維空間轉化,使其變得線性可分。
而轉化最關鍵的部分就在於找到x到y的對映方法。遺憾的是,如何找到這個對映,沒有系統性的方法(也就是說,純靠猜和湊)。具體到我們的文字分類問題,文字被表示為上千維的向量,即使維數已經如此之高,也常常是線性不可分的,還要向更高的空間轉化。其中的難度可想而知。
小tips:為什麼說f(y)=ay是四維空間裡的函式?用乙個具體文字分類的例子來看看這種向高維空間對映從而分類的方法如何運作,想象一下,我們文字分類問題的原始空間是1000維的(即每個要被分類的文件被表示為乙個1000維的向量),在這個維度上問題是線性不可分的。現在我們有乙個2000維空間裡的線性函式大家可能一時沒看明白。回想一下我們二維空間裡的函式定義
g(x)=ax+b
變數x是一維的,為什麼說它是二維空間裡的函式呢?因為還有乙個變數我們沒寫出來,它的完整形式其實是
y=g(x)=ax+b
即y=ax+b
再看看
f(y)=ay
f(x』)=』,x』>+b注意向量的右上角有個 』哦。它能夠將原問題變得可分。式中的 w』和x』都是2000維的向量,只不過w』是定值,而x』是變數(好吧,嚴格說來這個函式是2001維的,哈哈),現在我們的輸入呢,是乙個1000維的向量x,分類的過程是先把x變換為2000維的向量x』,然後求這個變換後的向量x』與向量w』的內積,再把這個內積的值和b相加,就得到了結果,看結果大於閾值還是小於閾值就得到了分類結果。
你發現了什麼?我們其實只關心那個高維空間裡內積的值,那個值算出來了,分類結果就算出來了。而從理論上說, x』是經由x變換來的,因此廣義上可以把它叫做x的函式(有乙個x,就確定了乙個x』,對吧,確定不出第二個),而w』是常量,它是乙個低維空間裡的常量w經過變換得到的,所以給了乙個w 和x的值,就有乙個確定的f(x』)值與其對應。這讓我們幻想,是否能有這樣一種函式k(w,x),他接受低維空間的輸入值,卻能算出高維空間的內積值』,x』>?
如果有這樣的函式,那麼當給了乙個低維空間的輸入x以後,
g(x)=k(w,x)+b
f(x』)=』,x』>+b這兩個函式的計算結果就完全一樣,我們也就用不著費力找那個對映關係,直接拿低維的輸入往g(x)裡面代就可以了(再次提醒,這回的g(x)就不是線性函式啦,因為你不能保證k(w,x)這個表示式裡的x次數不高於1哦)。
萬幸的是,這樣的k(w,x)確實存在(發現凡是我們人類能解決的問題,大都是巧得不能再巧,特殊得不能再特殊的問題,總是恰好有些能投機取巧的地方才能解決,由此感到人類的渺小),它被稱作核函式(核,kernel),而且還不止乙個,事實上,只要是滿足了mercer條件的函式,都可以作為核函式。核函式的基本作用就是接受兩個低維空間裡的向量,能夠計算出經過某個變換後在高維空間裡的向量內積值。回想我們上節說的求乙個線性分類器,它的形式應該是:
現在這個就是高維空間裡的線性函式(為了區別低維和高維空間裡的函式和向量,我改了函式的名字,並且給w和x都加上了 』),我們就可以用乙個低維空間裡的函式(再一次的,這個低維空間裡的函式就不再是線性的啦)來代替,
又發現什麼了?f(x』) 和g(x)裡的α,y,b全都是一樣一樣的!這就是說,儘管給的問題是線性不可分的,但是我們就硬當它是線性問題來求解,只不過求解過程中,凡是要求內積的時候就用你選定的核函式來算。這樣求出來的α再和你選定的核函式一組合,就得到分類器啦!
明白了以上這些,會自然的問接下來兩個問題:
1. 既然有很多的核函式,針對具體問題該怎麼選擇?
2. 如果使用核函式向高維空間對映後,問題仍然是線性不可分的,那怎麼辦?
第乙個問題現在就可以回答你:對核函式的選擇,現在還缺乏指導原則!各種實驗的觀察結果(不光是文字分類)的確表明,某些問題用某些核函式效果很好,用另一些就很差,但是一般來講,徑向基核函式是不會出太大偏差的一種,首選。(我做文字分類系統的時候,使用徑向基核函式,沒有引數調優的情況下,絕大部分類別的準確和召回都在85%以上,可見。雖然libsvm的作者林智仁認為文字分類用線性核函式效果更佳,待考證)
對第二個問題的解決則引出了我們下一節的主題:鬆弛變數。
SVM入門(七)為何需要核函式
生存?還是毀滅?哈姆雷特 可分?還是不可分?支援向量機 之前一直在討論的線性分類器,器如其名 汗,這是什麼說法啊 只能對線性可分的樣本做處理。如果提供的樣本線性不可分,結果很簡單,線性分類器的求解程式會無限迴圈,永遠也解不出來。這必然使得它的適用範圍大大縮小,而它的很多優點我們實在不原意放棄,怎麼辦...
SVM入門(七)為何需要核函式
生存?還是毀滅?哈姆雷特 可分?還是不可分?支援向量機 之前一直在討論的線性分類器,器如其名 汗,這是什麼說法啊 只能對線性可分的樣本做處理。如果提供的樣本線性不可分,結果很簡單,線性分類器的求解程式會無限迴圈,永遠也解不出來。這必然使得它的適用範圍大大縮小,而它的很多優點我們實在不原意放棄,怎麼辦...
SVM入門(七)為何需要核函式
生存?還是毀滅?哈姆雷特 可分?還是不可分?支援向量機 之前一直在討論的線性分類器,器如其名 汗,這是什麼說法啊 只能對線性可分的樣本做處理。如果提供的樣本線性不可分,結果很簡單,線性分類器的求解程式會無限迴圈,永遠也解不出來。這必然使得它的適用範圍大大縮小,而它的很多優點我們實在不原意放棄,怎麼辦...