馬普所2008 機器學習中的核方法（上）

hofmann t , sch?lkopf b , smola a j . kernel methods in machine learning[j]. annals of stats, 2008, 36(3).

[1] integrating structured biological data by kernel

maximum mean discrepancy

概括

傳統的機器學習理論和演算法都是基於線性空間的，而實際問題中的資料分析問題通常需要使用非線性方法解決。而引入正定核可以在理論和實際問題中都達到最好的效果。

基本原理

正定核對應著特徵空間的點乘。只要能夠用核方法將everythhing都轉化到特徵空間，就可以在特徵空間裡用線性方法進行判別，而不需要對高維特徵空間進行特殊計算。

介紹性的例子

定義問題

假設是二分類問題，有一組訓練集有n個樣本：(x1,y1),(x2,y2),…,(xn,yn)，y取值為。對於乙個新的輸入樣本x，希望能**對應的y，讓（x，y）與訓練樣本相似。因此需要對xi所在的空間x，和yi所在的中元素的相似度進行衡量。後者顯而易見，但前者需要定義函式：

h中，也稱為特徵空間。

也就是說，在x空間上的k(xi，xj)等價於在特徵空間的點乘。

結合圖例

對於上圖的二分類問題，我們採用這樣的分類方法，即，當新樣本輸入x對應的特徵空間中的

因此用指示函式sgn(.)表示分類器為：

分類器(5)與svm有很強的聯絡。在特徵空間，該分類器為顯示為線性，但是在輸入空間x中用核的擴充套件表示（represented by a kernel expansion）。相當於用特徵空間裡的超平面進行分類。svm與（5）所示分類器的區別在於w=c

+−c−

w=c_+ - c_-

w=c+−

c−的法向量上.

考慮特殊情況

當b=0時，即當c-與c+連線中點與原點重合，用下式估計兩個概率分布：

正定核引入問題

在上文中已經要求核滿足下式，即讓其與點積空間的點乘相對應。那麼在這一部分我們就要驗證滿足該式的這一類核是正定的。

首先引入一些定義

格拉姆矩陣 (gram matrix）

給定核k和輸入x1,

...,

xn∈x1,..., xn \in

x1,...

,xn∈

x，有nxn的矩陣k，元素kij:= k(xi,xj），則稱之為k的關於輸入$x1,…, xn $的格拉姆矩陣。

2.正定核

實對稱矩陣kij，對於任意c∈

\in∈r，有

正定核

假設x是非空集合，k是xxx→r的乙個對映，對於任意n∈n，xi∈x，i∈[n],（[n]=)，都能夠得到乙個正定的格拉姆矩陣，則k稱為正定核。

若得到的都是嚴格正定的格拉姆矩陣，則k稱為嚴格正定核。

有時為了簡略，我們會將正定核簡稱為核。為了簡化，我們將問題限制在實數域上。然而，通過一些小的變化也可以擴充套件到複數域。

建立再生核希爾伯特空間positive definite kernel 正定核

dot product space 點積空間

馬普所2008 機器學習中的核方法（上）

機器學習中的核方法

機器學習中的核技巧

機器學習方法機器學習中的優化方法

馬普所2008 機器學習中的核方法（上）

機器學習中的核方法

機器學習中的核技巧

機器學習方法 機器學習中的優化方法

相關推薦

機器學習方法機器學習中的優化方法