高斯核訓練svm分類 單類SVM SVDD

2021-10-13 15:49:56 字數 2156 閱讀 4822

花果山上的老猴子,一生閱猴無數,但是從來沒有見過其它的物種。有一天,豬八戒來到花果山找它們的大王,老猴子一聲令下,把這個東西給我綁起來!

這裡老猴子很清楚的知道這個外來物種不是同類,但是它究竟是什麼,不得而知。老猴子見過很多猴,它知道猴子的特徵,而外來生物明顯不符合這個特徵,所以它就不是猴子。

這就是乙個單分類的簡單例子。

而美猴王看到這個場景後,哈哈一笑,把這呆子抬過來!

對比二分類,顯著的區別就是,二分類不但能得出來這個東西不是猴子,他還能告訴你這個東西叫「呆子」(當然我們的美猴王見多識廣,肯定不止是二分類那麼簡單了)

今天要介紹的svdd的全稱是support vector domain description。首先讓我們簡單了解一下domain description,也就是單分類問題。

不像常見的分類問題,單分類問題的目的並不時將不同類別的資料區分開來,而是對某個類別的資料生成乙個描述(description)。這裡的description比較抽象,可以理解為是樣本空間中的乙個區域,當某個樣本落在這個區域外,我們就認為該樣本不屬於這個類別。

單分類問題

單分類方法常用於異常檢測,或者類別極度不平衡的分類任務中。

當我們假設資料服從乙個概率分布,我們就可以對這個分布中的引數進行估計了。對於乙個新樣本,如果這個樣本在給定類別的概率分布中的概率小於閾值,就會被判定為異常樣本。

但是這樣的方法存在的問題是,

預先假定的概率分布對模型效能的影響很大。

當特徵的維度很大的時候,該方法需要乙個很大的資料集。

一些低密度區域的樣本點會被誤判為異常樣本。

另一種思路就是,在樣本空間中為此類資料劃定乙個大致的邊界。如何劃定這個邊界,就是svdd要研究的問題啦。

假設我們有

我們假設這些樣本點分布在乙個球心為

引入鬆弛變數,我們允許部分樣本不再這個球中,那麼

我們的目標是最小球的半徑

和鬆弛變數的值,於是目標函式是

其中,

是懲罰引數,由人工設定。

使用拉格朗日乘子法,得到拉格朗日函式

其中,

是拉格朗日乘子。令拉格朗日函式對

的偏導為0,得到

我們可以將

看作樣本

的權重。上式表明所有樣本的權重之和為1,而球心

是所有樣本的加權和。將上式帶入到拉格朗日函式中,得到原問題的對偶問題

當通過求解對偶問題得到

後,可以通過

計算球心

至於半徑

,則可以通過計算球與支援向量(

)之間的距離得到。當

時,意味著樣本

位於球的外面。

對於乙個新的樣本點

,如果它滿足下式,那麼我們認為它是乙個異常點。

展開上式,得

正常情況下,資料並不會呈現球狀分布,因此有必要使用核函式的方法提高模型的表達能力。

只需將

替換 即可。於是對偶問題的目標函式變為

判別函式變為

下面考慮核函式的影響。

多項式核

多項式核函式的表示式如下

如下圖所示,多項式核實際上不太適合svdd。特別是當d取值非常大的時候。

高斯核

高斯核函式的表示式如下

如下圖,相比於多項式核函式,高斯核函式的結果就合理多了。可以看到模型的複雜程度隨著

的增大而減小。

可通過下面的**在python中使用單類svm

from sklearn.svm import oneclasssvm
需要說明的是,svdd[1]只是單類svm的一種推導方式,另一種也許更加常見的推導方式是[2],二者最後的推導結果實質上是等價的。

tax d m j, duin r p w. support vector domain description[j]. pattern recognition letters, 1999, 20(11-13): 1191-1199.

schölkopf b, platt j c, shawe-taylor j, et al. estimating the support of a high-dimensional distribution[j]. neural computation, 2001, 13(7): 1443-1471.

SVM核函式的分類

下列不是svm核函式的是 這道題的答案是logistic核函式。不要把這裡的sigmoid和logistic混淆了,為什麼?看下面解釋 支援向量機是建立在統計學習理論基礎之上的新一代機器學習演算法,支援向量機的優勢主要體現在解決線性不可分問題,它通過引入核函式,巧妙地解決了在高維空間中的內積運算,從...

西瓜書 習題6 2 用線性核 高斯核訓練SVM

import pandas as pd import numpy as np dataset pd.read csv home parker watermelondata watermelon3 0a.csv delimiter print dataset x dataset.iloc range ...

機器學習 SVM(核函式 高斯核函式RBF)

1 格式 2 多項式核函式 對傳入的樣本資料點新增多項式項 新的樣本資料點進行點乘,返回點乘結果 一維特徵的樣本,兩種型別,分布如圖,線性不可分 為樣本新增乙個特徵 x2 使得樣本在二維平面內分布,此時樣本在 x 軸公升的分布位置不變 如圖,可以線性可分 3 優點 特點 一般將原始樣本變形,通常是將...