上面那篇文章,簡單的總結了李航老師《統計機器學習》上面的svm的問題。其中軟間隔的svm主要指的是對那些線性不可分的樣本集構建svm分類的問題,允許一定的誤分類,所以優化問題引入了引數c;作為懲罰因子,c越大懲罰越大允許的錯誤越小。
但是直接使用0/1損失函式的話其非凸、非連續,數學性質不好優化起來比較複雜,因此需要使用其他的數學效能較好的函式進行替換,替代損失函式一般有較好的數學性質。常用的三種替代函式:
1、合頁(hinge)損失函式:
l(z) =
max(0,1
-z);
2、指數損失函式:
l(z) =exp(-z);
3、對數損失函式:
l(z) = log(1+exp(-z));
一般的軟間隔svm採用的是hinge損失函式進行替代,可以得到常見的軟體的svm的優化目標函式。如果採用的是對率損失函式進行替代那麼就和邏輯回歸的優化目標幾乎相同,這就得到了軟間隔svm與邏輯回歸的數學上的聯絡,因此一般來說svm的效能和邏輯回歸的效能差不多。
軟間隔svm與邏輯回歸的區別
最本質的區別:
這兩個損失函式的目的都是增加對分類影響較大的資料點的權重,減少與分類關係較小的資料點的權重。
svm的處理方法是只考慮 support vectors,也就是和分類最相關的少數點,去學習分類器。
而邏輯回歸通過非線性對映,大大減小了離分類平面較遠的點的權重,相對提公升了與分類最相關的資料點的權重,兩者的根本目的都是一樣的。
1、邏輯回歸通過輸出**概率後根據閾值進行判斷類別屬於回歸問題,svm則直接輸出分割超平面,進行分類,屬於分類問題。
(如果需要svm輸出概率值則需要進行特殊處理,可以根據距離的大小進行歸一化概率輸出。)
2、邏輯回歸可以使用多閾值然後進行多分類,svm則需要進行推廣。
3、svm在訓練過程只需要支援向量的,依賴的訓練樣本數較小,而邏輯回歸則是需要全部的訓練樣本資料,在訓練時開銷更大。
4,處理的資料規模不同。lr一般用來處理大規模的學習問題。如十億級別的樣本,億級別的特徵
2、
機器學習面試 之 LR與SVM
svm lr和svm的區別 lr1.lr的損失函式 2.lr的推導過程 請參考第一題 3.lr如何解決共線性,為什麼深度學習不強調 1 pca等降維方法。因為在原始特徵空間中變數之間相關性大,降維可以去除這種共線性。2 正則化。使用l2或者l1或者l1 l2。3 逐步回歸法。深度學習為什麼不強調?因...
機器學習原理掃盲系列(三)LR與SVM的聯絡與區別
聯絡 1 都是監督學習的分類演算法 2 當不考慮核函式時,lr和svm都是線性分類模型 3 都是判別模型 區別 1 本質上的不同是loss的不同,也就是分類原理的不同。lr的目標是最小化模型分布與經驗分布之間的交叉熵 svm的目標是最大化分類間隔 2 svm決策邊界只考慮分介面附近的點,即支援向量,...
LR與SVM的異同
1.本質上是其loss function不同 邏輯回歸採用的是logistical loss,svm採用的是hinge loss。可以看出,二者的唯一區別就是對於單個資料點,計算損失的方法不同。logistic regression中的log loss 而svm中的hinge loss。可以看出,二...