超級通俗的解釋:
支援向量機是用來解決分類問題的。
先考慮最簡單的情況,豌豆和公尺粒,用篩子很快可以分開,小顆粒漏下去,大顆粒保留。
用乙個函式來表示就是當直徑d大於某個值d,就判定為豌豆,小於某個值就是公尺粒。
d>d, 豌豆
d 在數軸上就是在d左邊就是公尺粒,右邊就是綠豆,這是一維的情況。
但是實際問題沒這麼簡單,考慮的問題不單單是尺寸,乙個花的兩個品種,怎麼分類?
假設決定他們分類的有兩個屬性,花瓣尺寸和顏色。單獨用乙個屬性來分類,像剛才分公尺粒那樣,就不行了。這個時候我們設定兩個值 尺寸x和顏色y.
我們把所有的資料都丟到x-y平面上作為點,按道理如果只有這兩個屬性決定了兩個品種,資料肯定會按兩類聚集在這個二維平面上。
我們只要找到一條直線,把這兩類劃分開來,分類就很容易了,以後遇到乙個資料,就丟進這個平面,看在直線的哪一邊,就是哪一類。
比如x+y-2=0這條直線,我們把資料(x,y)代入,只要認為x+y-2>0的就是a類,x+y-2<0的就是b類。
以此類推,還有三維的,四維的,n維的 屬性的分類,這樣構造的也許就不是直線,而是平面,超平面。
乙個三維的函式分類 :x+y+z-2=0,這就是個分類的平面了。
有時候,分類的那條線不一定是直線,還有可能是曲線,我們通過某些函式來轉換,就可以轉化成剛才的哪種多維的分類問題,這個就是核函式的思想。
例如:分類的函式是個圓形x^2+y^2-4=0。這個時候令x^2=a; y^2=b,還不就變成了a+b-4=0 這種直線問題了。
這就是支援向量機的思想。
名詞解釋:
支援向量機---可以理解為,支援點決定的分類面對「物件」進行分類的演算法。
點---向量
離分割面最近的特徵向量(點)被稱為」支援向量」(點)
核函式的作用是將資料對映到高維空間。
機的意思就是 演算法,機器學習領域裡面常常用「機」這個字表示演算法
支援向量意思就是 資料集種的某些點,位置比較特殊,比如剛才提到的x+y-2=0這條直線,直線上面區域x+y-2>0的全是a類,下面的x+y-2<0的全是b類,我們找這條直線的時候,一般就看聚集在一起的兩類資料,他們各自的最邊緣位置的點,也就是最靠近劃分直線的那幾個點,而其他點對這條直線的最終位置的確定起不了作用,所以我姑且叫這些點叫「支援點」(意思就是有用的點),但是在數學上,沒這種說法,數學裡的點,又可以叫向量,比如二維點(x,y)就是二維向量,三維度的就是三維向量( x,y,z)。所以 「支援點」改叫「支援向量」,聽起來比較專業,nb。
所以就是 支援向量機 了。
知乎上的一篇文章講的也是沒誰了!
支援向量機專題 線性支援向量機
原文 當資料線性不可分時,使用硬間隔支援向量機很難得到理想的結果。但是如果資料近似線性可分,可以採用軟間隔支援向量機 線性支援向量機 進行分類。這通常適用於有少量異常樣本的分類,如果使用線性支援向量機,它會盡量使得所有訓練樣本都正確,如下圖所示。顯然這並不是最好的結果,軟間隔支援向量機可以權衡 間隔...
支援向量機
支援向量機 svm 一種專門研究有限樣本 的學習方法。是在統計學習理論基礎之上發展而來的。沒有以傳統的經驗風險最小化原則作為基礎,而是建立在結構風險最小化原理的基礎之上,發展成為一種新型的結構化學習方法。結構風險最小歸納原理 解決了有限樣本或小樣本的情況下獲得具有優異泛化能力的學習機器。包含了學習的...
支援向量機
支援向量 與分離超平面距離最近的樣本點的例項 優點 泛化錯誤率低,計算開銷不大,結果易解釋 缺點 對引數調節和核函式選擇敏感,原始分類器不加修改僅適用於處理二分類問題 適合資料型別 數值型和標稱型資料 每次迴圈中選擇兩個alpha進行優化處理。一旦找到一對合適的alpha,那麼久增大其中乙個同時減小...