一些分類問題,如果對於一些原理上就有缺陷的分類器(對,沒錯,就是以樣本為線性可分為基礎所提出的理論推導的分類器)來說,如果樣本是線性不可分,那麼就麻煩了。原本的理論就不適用了。但是,人們想出了乙個辦法,把這個問題轉化的很巧妙。
人們想,是不是可以將原始空間中的點對映到乙個更高維度的特徵空間上去,使得樣本在這個特徵空間內線性可分呢?答案是可以的。貌似已經證明了如果原始空間是有限維度的,即屬性是有限的,那麼一定存在乙個高維特徵空間使得樣本可分。為了更好的理解,可以看看下面這張圖:
既然要將原始空間的點對映到高維的空間,那我們需要準備乙個對映函式,姑且將整個函式名字命名為ϕ(
x),整個函式表示將
x 對映到高維空間後的特徵向量。
此時我們如果想要得到高維空間中點的內積,我們很容易會寫出像下面這樣的公式:ϕ(
xi)t
ϕ(xj
) 其中,x
i 和xj
分別是原始空間中的點。由於將原始空間中的點對映之後維度會擴大,所以實際計算這樣的內積的時候其實是很困難的。那麼我們為了避開這樣的障礙,可以設想這樣乙個函式:κ(
xi,x
j)=⟨
ϕ(xi
),ϕ(
xj)⟩
=ϕ(x
i)tϕ
(xj)
這樣我們就可以通過xi
和xj 在原始特徵空間中的某種運算之後就可以得到高維空間中向量內記得結果。這個運算可以寫為κ(
⋅,⋅)
定理:核函式令
x 為輸入空間,κ(
⋅,⋅)
x×x上的對稱函式,則 κ
d=x1
,x2,
…,xm
,核矩陣
k 總是半正定的。
事實上,對於乙個半正定核函式,總能找到乙個與之對應的對映
ϕ 。任何乙個核函式都隱式的定義了乙個稱為「再生核希特波特空間」(reproducing kernel hilbert space)的特徵空間。
關於希爾伯特空間的定義,其實非常有意思,曾經看過上海交大的函式空間公開課,裡面講的很不錯。所有的概念都是由距離引出來的。而各種空間都是在距離的概念上加限制條件。如何理解加限制條件呢。老師舉了乙個很有意思的例子。水果本身是一種定義,它具有某種屬性。這是乙個很廣泛的基礎概念。然而我們怎麼定義熱帶水果呢?是不是在本身水果的屬性或者定義的基礎上,加上某些限制,例如生長在熱帶,才能完成熱帶水果的定義呢。希爾伯特空間由內積空間加完備性引出的。完備性指的是空間中的極限運算不能跑出該空間。例如你通過乙個運算算出了乙個不屬於該空間的數,這就不屬於完備性。而內積空間是由線性賦範空間(很拗口…但是就是這麼叫的…)加內積運算引出的。具體的可以看看這篇文章,說的很詳細名稱參考
表示式引數
線性核κ((
x)i,
(x)j
)=xt
ixj
多項式核κ(
(x)i
,(x)
j)=(
xtix
j)d d≥
1 為多項式的次數
高斯核κ((
x)i,
(x)j
)=ex
p(−∥
∥xi−
xj∥∥
22σ2
)
σ>
0 為高斯核的頻寬
拉普拉斯核κ(
(x)i
,(x)
j)=e
xp(−
∥∥xi
−xj∥
∥σ)
σ>
0
sigmoid核κ(
(x)i
,(x)
j)=t
anh(
βxti
xj+θ
)
tanh為雙曲線正切函式,
β>0,
θ<
0
對於核函式的理解
一直都覺得核函式是乙個很難理解東西,在知乎上看到了乙個解答,感覺不錯。觀點 核函式和對映沒有關係,核函式只是用來計算對映到高維空間之後的內積的一種簡便方法。一般英文文獻對kernel有兩種提法,一是kernel function,二是kernel trick。從trick一詞中就可以看出,這只是一種...
SVM中關於核函式的理解
如果訓練樣本不是線性可分的,那麼只要樣本的屬性是有限個,就可以將其對映到高維特徵空間,使這些樣本線性可分.問題 為什麼要讓這些樣本線性可分?當對映到高維空間後,想要得到模型 function 那麼計算難度是非常大的.此時我們可以使用核函式來簡化計算.那麼什麼樣的函式可以作為核函式呢?只要乙個對稱函式...
機器學習核函式理解
核函式要滿足的條件稱為mercer s condition。核函式的作用就是隱含著乙個從低維空間到高維空間的對映,而這個對映可以把低維空間中線性不可分的兩類點變成線性可分的。在機器學習中常用的核函式,一般有這麼幾類,也就是libsvm中自帶的這幾類 1 線性 k v 1,v 2 v 1,v 2 2 ...