建模時選擇SVM還是LR?

2022-06-19 16:51:12 字數 828 閱讀 3437

這兩個演算法都可以解決線性分類問題和非線性分類問題(都使用kernel trick)。

如果是非線性分類,那麼我們就首選svm。

svm不是概率輸出,logistic regression是概率輸出。

也就是說,當乙個新樣本來了,svm只會告訴你它的分類,而logistic regression會告訴你它屬於某類的概率!

什麼意思呢?當你想要知道某個樣本屬於乙個類的概率時,svm就不適用了。此時,應該使用logistic regression。

那麼問題來了,點到svm分類面的距離,是否可以轉化為「概率輸出」呢,即離分類面越遠,其屬於該類的概率越大,反之越小呢?《prml》裡確實提過類似的做法,也有一些其他的辦法讓svm輸出概率,但作者說這些方法都不太實用。

異常點的魯棒性問題

當訓練樣本中存在異常點時,由於logistic regression的lost function中有每乙個點的貢獻,所以某種程度上「削弱了」異常點的貢獻。而svm只需要考慮支援向量,此時支援向量本來就不是很多的情況下,幾個異常點就很有可能極大影響svm的表現。

目標函式 lost function

logistic regression使用entropy loss,極大化似然函式。

而svm使用hinge loss, 最大化間隔。兩個loss差別不是很大,所以算是乙個相同點了。

實際問題:

實際問題中,如果資料量非常大,特徵維度很高,使用svm搞不定時,還是用logistic regression吧,速度更快一些。

參考:

SVM核函式選擇

svm支援向量機,一般用於二分類模型,支援線性可分和非線性劃分。svm中用到的核函式有線性核 linear 多項式核函式pkf以及高斯核函式rbf。當訓練資料線性可分時,一般用線性核函式,直接實現可分 當訓練資料不可分時,需要使用核技巧,將訓練資料對映到另乙個高維空間,使再高維空間中,資料可線性劃分...

SVM 核函式的選擇

1 經常使用的核函式 核函式的定義並不困難,根據泛函的有關理論,只要一種函式k xi,x j 滿足mercer條件,它就對應某一變換空間的內積 對於判斷哪些函式是核函式到目前為止也取得了重要的突破,得到mercer定理和以下常用的核函式型別 1 線性核函式k x,x i x xi 2 多項式核k x...

svm中引數的選擇方法

支援向量機引數的取值直接影響到分類器的學習能力和推廣能力。通常通過計算分類器的推廣誤差來衡量引數的優劣,常用的方法有k重交叉驗證和留一法。k重交叉驗證法 該方法是最為普遍的計算推廣誤差的方法之一。其過程為 將訓練樣本集隨機分為k個集合,通常分為k等份,對其中的k 1個集合進行訓練,得到乙個決策函式,...