2兩種模型使用選擇
邏輯回歸和支援向量機之間的區別也是面試經常會問的一道題。下面主要討論邏輯回歸(lr)與線性支援向量機(linear svm)的區別。
lr 和 svm本質不同在於loss function的不同,lr的損失函式是 cross entropy loss, ,svm是hinge loss。
我們先來看一下帶鬆弛變數的 svm 和正則化的邏輯回歸它們的損失函式:
svm:
logistic:1
n∑i=
1n(1
−yi[
w0+x
tiw1
])++
λ∥w1
∥/21
n∑i=
1n−logg(
yi[w
0+xt
iw1]
)
−logp(
yi|x
,w)+
λ∥w1
∥/2(1)
(2)
其中,g(z
)=(1
+exp(−
z))−
1 可以將兩者統一起來,
both:1
n∑i=
1nlo
ss(y
i[w0
+xti
w1]
z)
+λ∥w
1∥/2
(3)
也就是說,它們的區別就在於邏輯回歸採用的是 log loss(對數損失函式),svm採用的是hinge loss →e(z)=max(0,1−z)→e(z)=max(0,1−z)。這兩個損失函式的目的都是增加對分類影響較大的資料點的權重,減少與分類關係較小的資料點的權重。svm的處理方法是只考慮support vectors,也就是和分類最相關的少數點,去學習分類器。而邏輯回歸通過非線性對映,大大減小了離分類平面較遠的點的權重,相對提公升了與分類最相關的資料點的權重,兩者的根本目的都是一樣的。
svm考慮區域性(支援向量),而logistic回歸考慮全域性,就像大學裡的輔導員和教師間的區別。
輔導員關心的是掛科邊緣的人,常常找他們談話,告誡他們一定得好好學習,不要浪費大好青春,掛科了會拿不到畢業證、學位證等等,相反,對於那些相對優秀或者良好的學生,他們卻很少去問,因為輔導員相信他們一定會按部就班的做好分內的事;而大學裡的教師卻不是這樣的,他們關心的是班裡的整體情況,大家是不是基本都理解了,平均分怎麼樣,至於某個人的分數是59還是61,他們倒不是很在意。如果feature的數量很大,跟樣本數量差不多,這時候選用lr或者是linear kernel的svm
如果feature的數量比較小,樣本數量一般,不算大也不算小,選用svm+gaussian kernel
如果feature的數量比較小,而樣本數量很多,需要手工新增一些feature變成第一種情況
支援向量機 SVM 和邏輯回歸 LR
支援向量機文件 邏輯回歸文件 1 都是常用的分類演算法。2 如果不考慮核函式,lr和svm都是線性分類演算法,也就是說他們的分類決策面都是線性的。3 lr和svm都是監督學習演算法。4 lr和svm都是判別模型 判別模型會生成乙個表示p y x 的判別函式 或 模型 而生成模型先計算聯合概率p y,...
支援向量機專題 線性支援向量機
原文 當資料線性不可分時,使用硬間隔支援向量機很難得到理想的結果。但是如果資料近似線性可分,可以採用軟間隔支援向量機 線性支援向量機 進行分類。這通常適用於有少量異常樣本的分類,如果使用線性支援向量機,它會盡量使得所有訓練樣本都正確,如下圖所示。顯然這並不是最好的結果,軟間隔支援向量機可以權衡 間隔...
邏輯回歸 決策樹和支援向量機(I)
機器學習 視覺化特徵空間 邏輯回歸 決策邊界 svm決策樹 摘要 分類問題是商業業務中遇到的主要問題之一。本文對三種主要技術展開討論,邏輯回歸 logistic regression 決策樹 decision trees 和支援向量機 support vector machine,svm 分類問題是...