SVM 的核函式選擇和調參

2021-08-25 08:54:14 字數 1904 閱讀 5257

核函式形式 k(x, y) = ,

其中 x, y  為 n 維,f 為 n 維到 m 維的對映,表示內積。

在用svm處理問題時,如果資料線性不可分,希望通過 將輸入空間內線性不可分的資料 對映到 乙個高維的特徵空間內,使資料在特徵空間內是線性可分的,這個對映記作 ϕ(x),

之後優化問題中就會有內積 ϕi⋅ϕj, 

這個內積的計算維度會非常大,因此引入了核函式, 

kernel 可以幫我們很快地做一些計算, 否則將需要在高維空間中進行計算。

下表列出了 9 種核函式以及它們的用處和公式,常用的為其中的前四個:linear,polynomial,rbf,sigmoid

核函式用處

公式linear kernel

線性可分時,特徵數量多時,樣本數量多再補充一些特徵時,linear kernel可以是rbf kernel的特殊情況

polynomial kernel

image processing,引數比rbf多,取值範圍是(0,inf)

gaussian radial basis function (rbf)

通用,線性不可分時,特徵維數少 樣本數量正常時,在沒有先驗知識時用,取值在[0,1]

sigmoid kernel

生成神經網路,在某些引數下和rbf很像,可能在某些引數下是無效的

gaussian kernel

通用,在沒有先驗知識時用

通用,在沒有先驗知識時用

neural networks中用

bessel function of the first kind kernel

可消除函式中的交叉項

anova radial basis kernel

回歸問題

text categorization,回歸問題,處理大型稀疏向量

在 sklearn 中可以用 grid search 找到合適的 kernel,以及它們的 gamma,c 等引數,那麼來看看各 kernel 主要調節的引數是哪些:

核函式公式

調參linear kernel

polynomial kernel

-d:多項式核函式的最高次項次數,-g:gamma引數,-r:核函式中的coef0

gaussian radial basis function (rbf)

-g:gamma引數,預設值是1/k

sigmoid kernel

-g:gamma引數,-r:核函式中的coef0

其中有兩個重要的引數,即 c(懲罰係數) 和 gamma, 

gamma 越大,支援向量越少,gamma 越小,支援向量越多。 

而支援向量的個數影響訓練和**的速度。 

c 越高,容易過擬合。c 越小,容易欠擬合。

SVM 的核函式選擇和調參

本文結構 1.什麼是核函式 2.都有哪些 如何選擇 3.調參 1.什麼是核函式 核函式形式 k x,y 其中 x,y 為 n 維,f 為 n 維到 m 維的對映,表示內積。12 在用svm處理問題時,如果資料線性不可分,希望通過 將輸入空間內線性不可分的資料 對映到 乙個高維的特徵空間內,使資料在特...

SVM核函式選擇

svm支援向量機,一般用於二分類模型,支援線性可分和非線性劃分。svm中用到的核函式有線性核 linear 多項式核函式pkf以及高斯核函式rbf。當訓練資料線性可分時,一般用線性核函式,直接實現可分 當訓練資料不可分時,需要使用核技巧,將訓練資料對映到另乙個高維空間,使再高維空間中,資料可線性劃分...

SVM 核函式的選擇

1 經常使用的核函式 核函式的定義並不困難,根據泛函的有關理論,只要一種函式k xi,x j 滿足mercer條件,它就對應某一變換空間的內積 對於判斷哪些函式是核函式到目前為止也取得了重要的突破,得到mercer定理和以下常用的核函式型別 1 線性核函式k x,x i x xi 2 多項式核k x...