通俗易懂 SVM演算法講解 演算法 案例

2021-09-11 14:02:53 字數 1232 閱讀 5220

新聞分類案例

首先我們先來看乙個3維的平面方程:ax+by+cz+d=0

這就是我們中學所學的,從這個方程我們可以推導出二維空間的一條直線:ax+by+d=0

那麼,依次類推,更高維的空間叫做乙個超平面:

x代表的是乙個向量,接下來我們看下二維空間的幾何表示:

svm的目標是找到乙個超平面,這個超平面能夠很好的解決二分類問題,所以先找到各個分類的樣本點離這個超平面最近的點,使得這個點到超平面的距離最大化,最近的點就是虛線所畫的。由以上超平面公式計算得出大於1的就屬於打叉分類,如果小於0的屬於圓圈分類。

這些點能夠很好地確定乙個超平面,而且在幾何空間中表示的也是乙個向量,那麼就把這些能夠用來確定超平面的向量稱為支援向量(直接支援超平面的生成),於是該演算法就叫做支援向量機(svm)了。

函式間隔

在超平面wx+b=0確定的情況下,|wx+b|能夠表示點x到距離超平面的遠近,而通過觀察wx+b的符號與類標記y的符號是否一致可判斷分類是否正確,所以,可以用(y(w*x+b))的正負性來判定或表示分類的正確性。於此,我們便引出了函式間隔(functional margin)的概念。定義函式間隔(用

表示)為:

但是這個函式間隔有個問題,就是我成倍的增加w和b的值,則函式值也會跟著成倍增加,但這個超平面沒有改變。所以有函式間隔還不夠,需要乙個幾何間隔。

幾何間隔

我們把w做乙個約束條件,假定對於乙個點 x ,令其垂直投影到超平面上的對應點為 x0 ,w 是垂直於超平面的乙個向量,為樣本x到超平面的距離,如下圖所示:

根據平面幾何知識,有

對乙個資料點進行分類,當超平面離資料點的「間隔」越大,分類的確信度(confidence)也越大。所以,為了使得分類的確信度盡量高,需要讓所選擇的超平面能夠最大化這個「間隔」值。這個間隔就是下圖中的gap的一半。

至此,svm的第一層已經了解了,就是求最大的幾何間隔,對於那些只關心怎麼用svm的朋友便已足夠,不必再更進一層深究其更深的原理。

svm要深入的話有很多內容需要講到,比如:線性不可分問題、核函式、smo演算法等。

支援向量機通俗導論:blog.csdn.net/v_july_v/ar…

github位址

尋覓網際網路,少有機器學習通俗易懂之演算法講解、案例等,專案立於這一問題之上,整理乙份基本演算法講解+案例於文件,供大家學習之。通俗易懂之文章亦不可以面概全,但凡有不正確或爭議之處,望告知,自當不吝賜教!

通俗易懂 SVM演算法講解 演算法 案例

1.3最大間隔分類器 1.4後續問題 1.5新聞分類例項 尋覓網際網路,少有機器學習通俗易懂之演算法講解 案例等,專案立於這一問題之上,整理乙份基本演算法講解 案例於文件,供大家學習之。通俗易懂之文章亦不可以面概全,但凡有不正確或爭議之處,望告知,自當不吝賜教!github位址 加資料 首先我們先來...

通俗易懂 線性回歸演算法講解 演算法 案例

1.7python實現 github位址 加資料 我們首先用弄清楚什麼是線性,什麼是非線性。相信通過以上兩個概念大家已經很清楚了,其次我們經常說的回歸回歸到底是什麼意思呢。對大量的觀測資料進行處理,從而得到比較符合事物內部規律的數學表示式。也就是說尋找到資料與資料之間的規律所在,從而就可以模擬出結果...

通俗易懂 邏輯回歸演算法講解 演算法 案例

尋覓網際網路,少有機器學習通俗易懂之演算法講解 案例等,專案立於這一問題之上,整理乙份基本演算法講解 案例於文件,供大家學習之。通俗易懂之文章亦不可以面概全,但凡有不正確或爭議之處,望告知,自當不吝賜教!github位址 加資料 邏輯回歸是用來做分類演算法的,大家都熟悉線性回歸,一般形式是y ax ...