機器學習 SVM(3)核函式

2021-07-11 14:56:28 字數 2330 閱讀 6510

更詳細的講解可以參考原部落格。

1、為什麼引入核函式呢?

為了回答這個問題,我們先來說明什麼是線性不可分資料。如下左圖所示,如果資料能用一條直線或乙個超平面分開的資料,就是線性不可分資料。那麼什麼是線性不可分資料呢?如下右圖所示,我們無法用一條直線或乙個超平面分開的資料。

很不幸的是我們之前介紹的svm是乙個線性分類器,也就是處理線性可分資料,對於上右圖的資料前面介紹svm就無可奈何了。

但是這裡有個問題----為什麼我們不學習乙個針對上右圖這種非線性的分類器呢?我個人覺得這樣的非線性分類沒有通用性,因為線性不可分的情況可能有多種,我們不能針對每一種型別學習一種分類器。因此唯一的辦法就是想辦法把線性不可分資料轉換成線性可分的。

2、怎樣將線性不可分資料轉換成線性可分的呢?

將低維資料轉換成高維資料,就可以實現將線性不可分資料轉換成線性可分的。我們以上右圖為例。

對於上右圖的資料,乙個乙個理想的分界應該是乙個「圓圈」而不是一條線(超平面)。如果用 x1 和 x2 來表示這個二維平面的兩個座標的話,我們知道一條二次曲線(圓圈是二次曲線的一種特殊情況)的方程可以寫作這樣的形式:

注意上面的形式,如果我們構造另外乙個五維的空間,其中五個座標的值分別為 z1=x1, z2=x21, z3=x2, z4=x22, z5=x1x2,那麼顯然,上面的方程在新的座標系下可以寫作:

說明:對上面做個簡單的解釋。x1,x2是二維平面的兩個軸,x軸和y軸。(1)式是二維平面圓的表示式,如果我們把x1, x1^2,x2,x2^2, x1x2五個變數看成新的軸,就可以得到(2)式。我們發現(2)式在5維空間中是乙個超平面。這樣我們就右回到求解超平面的問題了。是不是很開心呢?

3.維度**怎麼辦?核函式隆重登場

也許有人已經發現了,二維線性不可分資料轉換成線性可分需要轉換到五維,那如果維度變大,轉換後的維度豈不是更大了,甚至是無窮維。這樣我們就根本沒有辦法計算了。這時核函式就隆重登場了。核函式的目的就是在低維計算但是效果等同於在高維計算,這樣就可以簡化我們的計算了。這裡偷個懶貼兩張吧。

從上面我們可以看到二維到五維的轉化,我們只需要在低維計算,就可以實現和在高維運算一樣的結果,這就是和函式的作用。

我們把這裡的計算兩個向量在對映過後的空間中的內積的函式叫做核函式 (kernel function) ,例如,在剛才的例子中,我們的核函式為:

4、svm中怎樣用核函式呢?

上式中是計算兩個向量的內積。

上式中的x還是二維的,對映到五維後的分類函式為:

我們將前面定義的核函式的形式也就是(3)式,帶入(6)中有下式:

這樣一來,我們就不用在高維空間計算了。

但是有個問題,前面我們說的對映是我們手工構造的,那對於其他資料我們怎樣構造對映呢?還好核函式的型別並不是很多,我們只要選擇自適合自己資料的就可以了。

5、核函式的型別

1、多項式核

2、高斯核

3、線性核 κ(x1,x2)=⟨x1,x2⟩ ,這實際上就是原始空間中的內積。這個核存在的主要目的是使得「對映後空間中的問題」和「對映前空間中的問題」兩者在形式上統一起來了。

總結:(借大神之言)對於非線性的情況,svm 的處理方法是選擇乙個核函式 κ(⋅,⋅) ,通過將資料對映到高維空間,來解決在原始空間中線性不可分的問題。由於核函式的優良品質,這樣的非線性擴充套件在計算量上並沒有比原來複雜多少,這一點是非常難得的。當然,這要歸功於核方法——除了 svm 之外,任何將計算表示為資料點的內積的方法,都可以使用核方法進行非線性擴充套件。

機器學習 SVM(核函式 高斯核函式RBF)

1 格式 2 多項式核函式 對傳入的樣本資料點新增多項式項 新的樣本資料點進行點乘,返回點乘結果 一維特徵的樣本,兩種型別,分布如圖,線性不可分 為樣本新增乙個特徵 x2 使得樣本在二維平面內分布,此時樣本在 x 軸公升的分布位置不變 如圖,可以線性可分 3 優點 特點 一般將原始樣本變形,通常是將...

機器學習 SVM核函式的計算

在 機器學習 推導支援向量機svm二分類中,我們已經推導出線性核svm的對偶優化問題 j i i 12 i j i jd idjk xi tk x j i i 12 i j i jdi djk xi,x j su bjec tto idi 0,0 i c 在優化好 i 拉格朗日量後,我們得到的w和b...

機器學習(7) SVM與核函式

是乙個類似於邏輯回歸的方法,用於對不同因素影響的某個結果的分類。但邏輯回歸主要採用的是sigmoid函式,svm有自己常用的核函式 linear線性核 rbf徑向基 poly多項式 比方說,要對一堆香蕉和黃瓜進行分類 首先要明確的是,我們常見的香蕉為黃色,黃瓜為綠色 為什麼不叫綠瓜?但是香蕉有綠色的...