線性分類模型的區別 SVM,LR

2021-09-18 05:44:35 字數 1081 閱讀 1764

1 svm 和lr 的區別

1.1 模型解決問題的方式

linear svm 直觀上是trade-off 兩個量,乙個是large margin :兩類之間可以畫多寬的gap,l1 錯誤懲罰:是對所有不滿足上述條件的點做l1 懲罰。

給定乙個資料集,一旦完成linear svm 的求解,所有資料點可以被歸成2類: 乙個是落在對應分界平面外並被正確分類的點,一類是落在gap 裡被錯誤分類的點。

lr模型中,每乙個資料點對分類平面都是有影響的,它的影響力遠離它到分類平面的距離指數遞減,換句話說,lr的解是受資料本身分布影響的,實際上如果資料維度很高,lr 模型都會配合引數的l1 正則。

1.2 區別:

相同點:

都是有監督的線性分類方法。

都是判別模型: 直接生成乙個表示p(y|x) 或者y=f(x) 的判別函式。svm 和lr ,knn,決策樹都是判別模型,樸素貝葉斯,隱馬爾科夫模型是生成模型。

生成演算法嘗試去找這個資料是怎麼生成的,然後再對乙個訊號進行分類,基於生成的假設,哪個類別最有可能生產這個訊號,這個訊號就屬於那個類別。判別模型不關心資料怎麼生成的,只關心訊號之間的差別。 然後用差別簡單對給定資訊進行分類。

不同點:

lr 的損失函式是cross entropy :

svm的是最大化間隔距離:

因此分類原理不同:lr 是基於概率理論,假設樣本為0 或者1 的概率可以用sigmoid 函式來表達,然後通過極大似然估計的方法估計引數的值,從資訊理論的角度來看,就是讓模型產生的分布p(y|x) 盡可能接近訓練資料的分布,相當於最小化kl 距離(因為kl 距離展開後,後一項為常數,剩下的一項是cross entropy)。

svm 基於幾何間隔最大化原理,認為存在最大幾何間隔的分類面為最優分類面。只考慮分類面上的點,在支援向量外新增任何點對結果沒有任何影響,linear svm 不依賴資料分布,分類平面不受一類點的影響,lr 受所有資料點的影響,資料不平衡要先做balance。balance 一般是只用負樣本的一部分或者擴大正樣本的數量。

參考:

ML 線性分類器和非線性分類器的區別

q 什麼是分類器?a 就是用來把輸入的資料進行分類的模型 本質上是函式 圖1,黑色的曲線就是非線性分類器。以曲線的形式分類了紅點和藍點。圖2,黑色的直線就是線性分類器。以直線的形式分類紅點和藍點。一 線性分類器 以上圖的二分類 紅點和藍點 為例 線性分類器就是用乙個 超平面 將兩個樣本隔離開,如 常...

11 分類的線性模型

現在如果用這三個方法都用於二值分類的話,那麼它們各自的錯誤衡量就變為 s表示用這個模型得出的分數,取值範圍應該跟原來是一樣的,線性回歸的s wx取值範圍為實數r,logistic回歸的取值範圍為0 1 乙個概率 ys 合起來表示正確的分數 把三個模型的錯誤衡量表示在同乙個座標軸上面。cross en...

線性模型和非線性模型的區別,以及啟用函式的作用

a.線性模型可以用曲線擬合樣本,線性模型可以是用曲線擬合樣本,但是分類的決策邊界一定是直線的,例如logistics模型 廣義線性模型,將線性函式進行了一次對映 b.區分是否為線性模型,主要是看乙個乘法式子中自變數x前的係數w,如果w只影響乙個x,那麼此模型為線性模型。或者判斷決策邊界是否是線性的 ...