分類器 監督演算法
基於邏輯回歸的代價函式,我們逐步調節實現svm的代價函式:
修正cost(i)
圖中的紫色線為更正之後的cost.
消去常數1/m
權重常數字置改變
最終得到的代價函式數學形式為:
j (θ
)=c∑
i=1m
[y(i
)cos
t1(θ
tx(i
))+(
1−y(
i))c
ost0
(θtx
(i))
)]+λ
/2∑j
=1nθ
j2j(\theta)=c\sum_^m[y^cost_1(\theta^tx^)+(1-y^)cost_0(\theta^tx^))]+\lambda/2\sum_^n\theta_j^2
j(θ)=c
∑i=1
m[y
(i)c
ost1
(θt
x(i)
)+(1
−y(i
))co
st0
(θtx
(i))
)]+λ
/2∑j
=1n
θj2
支援向量機努力用乙個最大的邊距來分離樣本,因此svm有時候也被稱為大間距分類器。
這也與引數設定有關係,如果引數c設定的非常大的話,那麼代價函式就可以簡化為:
如果直觀理解的話,引數c設定的非常大,也就是不允許訓練集出現錯誤,很容易因為乙個例子使得邊界發生巨大的變化,而正則化的部分可以對其進行修正。
接下來,我們從直觀的角度分析為什麼svm會得到間隔最大的分類邊界。
假設:c非常大
θ 0=
0\theta_0=0
θ0=
0為了方便分析,我們設p(i
)p^p(i)
為x (i
)x^x(i)
在θ
\theta
θ方向上的對映,因此可以得到:
θ tx
(i)=
p(i)
∣∣θ∣
∣\theta^tx^=p^||\theta||
θtx(i)
=p(i
)∣∣θ
∣∣我們選取高斯核函式作為我們的相似度函式:
s im
ilar
ity(
x,y)
=e−∣
∣x−y
∣∣22
σ2similarity(x,y)=e^}}
simila
rity
(x,y
)=e−
2σ2∣
∣x−y
∣∣2
如果我們仍然使用多項式的方法,那麼我們需要定義項:x1x
2,x1
2,x2
2x_1x_2,x_1^2,x_2^2
x1x2
,x12
,x2
2;很多時候特徵值的數目會超過我們的想象,因此按照這種辦法,所需要定義的項太多了,因此我們需要別的方法來定義特徵變數。
我們通過標記點和新特徵函式,來定義新的特徵變數。
設標記的點為l
ll,那麼隨意取x點,可以得到核函式的值為:
如果l ≈x
l≈x,那麼核函式的值可以得到趨近於1;如果距離非常遠,那麼核函式的值趨近於0.
這就是核函式或者說是相似度函式所具有的物理意義。
直接使用樣本點作為標記點。
f (i
)(x)
=sim
(x,x
(i))
f^(x)=sim(x,x^)
f(i)(x
)=si
m(x,
x(i)
) j (θ
)=c∑
i=1m
[y(i
)cos
t1(θ
tf(i
))+(
1−y(
i))c
ost0
(θtf
(i))
)]+λ
/2∑j
=1nθ
j2j(\theta)=c\sum_^m[y^cost_1(\theta^tf^)+(1-y^)cost_0(\theta^tf^))]+\lambda/2\sum_^n\theta_j^2
j(θ)=c
∑i=1
m[y
(i)c
ost1
(θt
f(i)
)+(1
−y(i
))co
st0
(θtf
(i))
)]+λ
/2∑j
=1n
θj2
關於引數的直觀理解:
如果c比較大的話,那麼直觀理解就是容錯性比較差,容易出現過擬合;也就是低偏差,高方差。
如果σ
\sigma
σ比較大的話,那麼直觀理解就是特徵變數f(i
)f^f(i)
變化的較為平滑;就是高偏差,低方差。
選擇引數
(1) 選擇ccc.
(2) 選擇核函式。
一種選擇是不用核函式,這時候也就可以理解為使用線性核函式。當n很大,m很小時,可以選擇這種核函式。
第二種選擇是使用高斯核函式。這時候需要選擇引數σ
\sigma
σ
機器學習(Coursera吳恩達)(七)
標籤 空格分隔 機器學習 降維 pca 第二種無監督學習問題,稱為降維。比如我們有兩個特徵量 x1長度 cm x2 英吋 兩種儀器對同乙個東西測量結果不完全相等,而將兩個都作為特徵有些重複,因而我們希望將這個二維的資料降維至一維。x原本是二維的,然後降成一維的z。同理也可以將1000維降維100維。...
吳恩達機器學習筆記
為了解決實際生活中的問題,我們通常需要乙個數學模型。比如,小明有乙個房子 他想賣掉房子 為了知道房子的 小明收集了該地區近兩年的房屋交易 他發現房屋 與房屋大小呈正相關,所以他畫了了一幅圖 小明的房屋大小用紅色的 代替。可見和小明房屋一樣大小的房子並不存在,而類似的房屋 又有很大差別,如此小明決定用...
吳恩達深度學習筆記
2.02 紅色為小標題,藍色比較重要 第四講第二週 4.2.1 為什麼要進行例項 4.2.2 經典網路 lenet 5網路當時還沒有padding,所以在卷積過程當中越來越小 也沒有relu函式,當時這個例子用的是sigmoid函式。超級引數不是很多。這個典型的網路有padding,使用的是relu...