SVM 傳說中的核技巧

2021-08-20 21:00:32 字數 1467 閱讀 9314

svm說白了,就分三種應用方式:

(1)線性可分(硬間隔)

(2)線性不可分,但大致可分(軟間隔)

(3)線性不可分,最優超平面誤差極大,如異或問題區分和這兩類,超平面無最優解,至少都有50%的誤差,於是就要用到傳說中的核函式(核技巧)

這篇文章將通過簡單的例子,解釋下這傳說中的核技巧思想。其實說到底,svm是資料探勘中較為高效的二分類演算法,但是如果遇到了線性不可分的情況(異或問題),svm仍然想完成線性可分,那麼在原來的樣本空間內顯然無法完成,但根據cover模式可分性定理——指不定把樣本對映到乙個更高維的空間就可以實現線性可分了,於是核技巧應運而生!即通過核函式將原來的m0維的樣本轉換到另乙個m1維空間(m1>=m0):

n,分為c1和c2兩類,於是可通過這樣一組函式(輸入為向量,輸出為一實數):φ1(x),φ2(x),...,φ

m1(x) 是是,就可以將m0維的樣本轉換為m1維向量,即令m1維ϕ=[φ1(x),φ2(x),⋯,φ

m1(x)]t,而向量ϕ 可被認為是被對映到高維空間之後的輸入資料x。φ

i(x)稱為隱藏函式,其組成的向量ϕ所在的空間稱為隱藏空間或特徵空間。

如果樣本在m1維空間裡的對映恰巧線性可分,那麼問題便簡化為乙個硬間隔線性可分問題。所以說白了,傳說中的核技巧就是對初始樣本進行非線性變換,在另乙個高維空間找到最優超平面完成對樣本對映的二分類,而那個高維空間的最優超平面對映回初始樣本空間就變成了乙個最優超曲面。下面舉個簡單的例子:

異或問題,將點(0,0)和(1,1)歸於類a,點(0,1)和點(1,0)歸於類b。我們可以通過這樣一組變換函式:

φ1(x)=e

xp(−∥xt1∥2)

φ2(x)=e

xp(−∥xt2∥2)                   

這就是高斯隱藏函式,雖然只有兩個隱藏函式,所以對應的高維空間也只有二維,但是已經可以實現線性可分。其中t1=(1,1),t2=(0,0);也就是將樣本點x與點(1,1)和點(0,0)的距離作為函式變數。轉換之後結果如下,顯然已經線性可分。

轉換前轉換後

(0,0)

(0.1353,1.000)

(0,1)

(0.3678,0.3678)

(1,0)

(0.3678,0.3678)

(1,1)

(1.000,0.1353)

傳說中的MTU

通訊術語 最大傳輸單元 maximum transmission unit,mtu 是指一種通訊協議的某一層上面所能通過的最大資料報大小 以位元組為單位 最大傳輸單元這個引數通常與通訊介面有關 網路介面卡 串列埠等 網際網路協議允許ip分片,這樣就可以將資料報分成足夠小的片段以通過那些最大傳輸單元小...

傳說中的truncate html

學習用rails做blog的時候要用到rails的truncate功能。h truncate post.content,100,問題來了,將html截斷後出現不完整的tag,導致後續的文章排版都錯亂了。本來考慮是不是自己寫乙個,正在思考思路,結果祭起google,好嗎,已經有牛人寫了 簡單記錄一下 ...

傳說中的分頁6

set quoted identifier off goset ansi nulls on go 名稱 分頁儲存過程 使用示例 exec sp pageindex from stusources 2,10 注意 目前還沒有對輸入的引數進行嚴格的驗證 預設為輸入都是合法有效的 alter proc s...