svm是
supportvectormachine的簡
稱,它的中文名
為支援向量機,屬於一種有
監督的機器 學
習演算法,可用於離散因
變數的分類和
連續因變數的
**。通常情況下,
該演算法相
對於其他單
一的分類
演算法(如
logistic回歸
、決策樹
、樸素貝
葉斯、knn
等)會有更好的
**準確率,主要是 因
為它可以將低
維線性不可分的空
間轉換為高維
的線性可分空
間。由於
該演算法具有較高的
預 測準確率,所以其備受企
業界的歡迎,如利用該演算法
實現醫療診斷、影象
識別、文字分類、市
場營銷等。
該演算法的思想就是利用某些支援向量所構成的
「超平面
」,將不同類別的
樣本點進行劃
分。不管
樣本點是
線性可分的、近似
線性可分的還是非
線性可分的,都可以利用
「超平面」將
樣 本點以
較高的準確度切割開來。需要注意的是,如果樣本點
為非線性可分,就要借助於核函式
技術,實現樣本在核空
間下完成
線性可分的操作。關鍵是
「超平面」該
如何構造,
這在本章的內
容中會有所介紹。
運用svm模型對因
變數進行分
類或**時具有幾個顯著的
優點:例如,由於
svm模型最
終所形成的分類器
僅依賴於一些支援向量,這就
導致模型具有很好的
魯棒性(增加或
刪除非支
持向量的
樣本點,並不會改變分
類器的效果)以及避免「維
度災難」的
發生(模型並不會隨資料
維度的提公升而提高
計算的復
雜度);模型具有很好的泛化能力,一定程度上可以避免模型的過
擬合;也可以避免模型在運算
過程**
現的區域性最
優。當然,
該演算法的缺點也是明
顯的,例如
模型不適合大
樣本的分類或
**,因
為它會消耗大量的計算
資源和時間;模型對缺失
樣本非常
敏感,這就需要建模前清洗好每乙個
觀測樣本;
雖然可以通
過核函式解決非
線性可分
問題,但
是模型對核函式的
選擇也同
樣很敏感;
svm為
黑盒模型(相比於回
歸或決策
樹等演算法),對計
算得到的
結果無法解釋。
支援向量的概念:
訓練資料集的樣本點中與分離超平面距離最近的樣本點的例項稱為支援向量,支援向量是使約束條件使wxi+b=+-1的點。
將函式間隔做單
位化處理後,得到的γi
值其實就是點xi
到分割面w'
x+b=0
的距 離,所以γi
被稱為幾何間
隔。
目標函式:
優點:由於
svm模型最終所形成的分類器
僅依賴於一些支援向量,這就
導致模型具有很好的
魯棒性(增加或
刪除非支
持向量的
樣本點,並不會改變分
類器的效果);避免「
維度災難」
的發生(模型並不會隨資料維度的提公升而提高
計算的復
雜度);
模型具有很好的泛化能力,一定程度上可以避免模型的
過擬合;
也可以避免模型在運算
過程**
現的區域性最優。
缺點:計算成本高,計算速度慢,記憶體消耗大,
模型過程及結果難以解釋,
對缺失資料敏感
機器學習筆記 SVM
優點 泛化錯誤率低,計算開銷不大,結果易解釋。缺點 對引數調節和核函式的選擇敏感,原始分類器不加修改僅適用於處理二類問題。適用資料型別 數值型和標稱型資料 支援向量機最主要的還是選出離分隔超平面最近的點,這些點叫支援向量,然後最大化支援向量到分隔面的距離。不能耐心的看完svm的理論了,實在是太多。等...
機器學習之SVM
支援向量機是一種二類分類模型。在介紹svm之前,需要先了解支援向量這一概念,支援向量是訓練樣本的乙個子集,這一子集是二類分類的決策邊界。在二類分類過程中,可能存在無數個能夠正確分離二類資料的超平面,如圖1所示。但是不是所有的超平面都在未知資料上執行的都很好,例如圖2中的超平面b 1 就比超平面b 2...
機器學習之svm專題
svm如何用於回歸分析 手把手教你實現svm 演算法 一 四顆星 lr與svm的異同 支援向量機通俗導論 理解svm的三層境界 1000多個贊。距離度量 支援向量 損失函式 對偶問題 拉格朗日乘法 核函式 軟間隔 1 解決高維特徵的分類問題和回歸問題很有效,在特徵維度大於樣本數時依然有很好的效果。2...