dn−勿
在浮沙築
高台本文將對svm解回歸問題,進行分析。
在樣本資料集(x
n,tn
) 中,tn
不是簡單的離散值,而是連續值。如**性回歸中,**房價的問題。與線性回歸類似,目標函式是正則平方誤差函式:
在svm回歸演算法中,目的是訓練出超平面y=
wtx+
b ,採用yn
=wtx
n+b 作為**值。為了獲得稀疏解,即計算超平面引數w,
b 不依靠所有樣本資料,而是部分資料(如在svm分類演算法中,支援向量的定義),採用ϵ−
inse
nsit
ive 誤差函式–vapnik,1995。 ϵ−
inse
nsit
ive 誤差函式定義為,如果**值yn
與真實值tn
的差值小於閾值
ϵ 將不對此樣本點做懲罰,若超出閾值,懲罰量為|y
下圖為ϵ−i
nsen
siti
ve誤差函式與平方誤差函式的圖形
觀察上述的eϵ
誤差函式的形式,可以看到,實際形成了乙個類似管道的樣子,在管道中樣本點,不做懲罰,所以被稱為ϵ−
tube
,如下圖陰影紅色部分
ϵ 替代平方誤差項,因此可以定義最小化誤差函式作為優化目標:
由於上述目標函式含有絕對值項不可微。我們可以轉化成乙個約束優化問題,常用的方法是為每乙個樣本資料定義兩個鬆弛變數ξn
≥0,ξ
n^≥0
,表示度量tn
與ϵ−t
ube 的距離。
如上圖所示:
當樣本點真實值tn
位於管道上方時,ξn
>
0 ,寫成表示式:tn
>y(
xn)+
ϵ 時,ξn
>0,
ξ^n=
0 ;
當樣本點真實值tn
位於管道下方時,ξn
^>
0 ,寫成表示式:tn
xn)−
ϵ 時,ξn
^>0,
ξn=0
; 因此使得每個樣本點位於管道內部的條件為: 當t
n 位於管道上方時,ξn
>
0 ,有tn
−y(x
n)−ξ
n≤ϵ
當tn 位於管道下方時,ξn
^>
0 ,有y(
xn)−
tn−ξ
^n≤ϵ
誤差函式可以寫為乙個凸二次優化問題:
約束條件: ξn
≥0 ξ
n^≥0
tn−y(xn
)−ξn
≤ϵ y
(xn)
−tn−
ξ^n≤
ϵ 上述問題為極小極大問題:mi
nw,b
,ξn,
ξn^m
axμn
,μn^
,αn,
αn^l
與svm分類分析方法一樣,改寫成對偶問題ma
xμn,
μn^,
αn,α
n^mi
nw,b
,ξn,
ξn^l
;首先分別對w,
b,ξn
,ξn^
求偏導數
帶回到拉格朗日函式中,化簡得到只關於αn
,αn^
的函式,目標即最大化此函式。
約束條件為: 0≤
αn≤c
0≤αn^≤c
,其中k(
xn,x
m)=(
xn)t
xm為向量內積。
下面考慮kkt條件:
由式7.65,7.66知: 當α
n≠0 時,必有ϵ+
ξn+y
(xn)
−tn=
0 ,這些點位於管道上方邊界出,或者管道上面。 當α
^n≠0
時,必有ϵ+
ξn−y
(xn)
+tn=
0 ,這些點位於管道下方邊界出,或者管道下面。
同時,由式7.65,7.66知,對於任意乙個資料點,由於
ϵ>
0 ,則αn
,α^n
不可能同時不為0,而且得到在管道內部的點,必然有αn
表示式帶入到y=
wtx+
b得:
由上述的分析,影響超平面引數的點為位於管道邊界處,或者管道外面。
關於b的計算,可以考慮在管道上方邊界處乙個點必然有: ξn
=0 ϵ
+ξn+
y(xn
)−tn
=0參考:prml
機器學習演算法 SVM 詳解
支援向量機 support vector machines 是一種二分類模型,它的目的是尋找乙個超平面來對樣本進行分割,分割的原則是間隔最大化,最終轉化為乙個凸二次規劃問題來求解。由簡至繁的模型包括 1 間隔最大化和支援向量 如果乙個線性函式能夠將樣本分開,稱這些資料樣本是線性可分的。那麼什麼是線性...
機器學習,詳解SVM軟間隔與對偶問題
那針對這樣的問題我們應該怎麼解決呢?在上文當中我們說了,在實際的場景當中,資料不可能是百分百線性可分的,即使真的能硬生生地找到這樣的乙個分隔平面區分開樣本,那麼也很有可能陷入過擬合當中,也是不值得追求的。因此,我們需要對分類器的標準稍稍放鬆,允許部分樣本出錯。但是這就帶來了乙個問題,在硬間隔的場景當...
機器學習 SVM
svm 支援向量機是個二分類模型。給定給乙個包含正例和反例的樣本集合,svm的目的是尋找乙個超平面來對樣本根據正例和反例進行分割。保證最大間隔,間隔最大可以有效避免在分類面上的樣本的誤判率。網上也是對其推崇備至,認為不管什麼任務,先跑跑svm和rf。對於超平面的求取,是乙個凸二次規劃問題,牽扯到對偶...