大資料十大經典演算法之SVM

2021-06-26 19:25:30 字數 1953 閱讀 5414

原理

問題的提出

多分類器的構造

設計線性分類器

非線性可分下的svm

需要核函式情況下的svm

svm的特點

一、原理:

傳統的統計模式識別方法只有在樣本趨於無窮大時,其效能才有理論的保證。而統計學習理論(stl)研究有限樣本情況下的機器學習問題。svm的理論基礎就是統計學習理論。svm使用一種非線性對映,把原訓練資料對映到較高的維。在新的維上,搜尋最佳分離超平面,兩個類的資料總可以被超平面分開。

svm是一種有堅實理論基礎的小樣本學習方法。它基本上不涉及概論測度及大數定律等。

二、問題的提出:

線性可分問題:當有乙個新的點x需要**屬於哪個分類的時候,我們用sgn(f(x))就可以**了。sgn表示符號函式。

對於線性不可分問題(異或問題),可以用svm解決。這時需要將d為資料對映到高維,而線性判別函式利用乙個超平面把特徵空間分隔成兩個區域。我們的目的是找乙個最優分類間隔(margin),擴充套件到多維就是最優分類面。最大化分類邊際是svm方法的核心。

三、svm是二類分類器,多類情況分類器可以在二分類的基礎上的構造:

一對多(one-against-the-rest):在第k類和第k-1類之間構建超平面。需構建k個svm。

一對一(one-against-one):可以把k類問題轉化成k個兩類問題,其中第i個問題是用線性判別函式把屬於ci類與不屬於ci類的點分開。需要k*(k-1)/2個svm。計算複雜,時間複雜度高。

svm決策樹(svm decision tree):將svm和二叉決策樹結合起來,構成多類分類器。但是這種方法容易將錯誤延續下去。

四、設計線性分類器:

所謂設計線性分類器,就是利用訓練樣本建立線性判別函式或者廣義線性判別函式。常見的準則函式有:

1、fisher準則函式

主要解決把d維空間的樣本投影到一條直線上,形成一維空間,即把維數壓縮到一維。在一般情況下,總可以找到某個方向,使得在該方向的直線上,樣本的投影能分開的最好。但是在d位維空間分得很好的樣本投影到一維空間以後,可能混到一起無法分割。

2、感知準則函式

3、最小錯分樣本數準則函式

4、最小平方誤差準則函式

5、隨機最小錯誤率線性判別準則函式

五、非線性可分下的c-svm

六、需要核函式情況下的svm

線性分類器的分類效能畢竟有限,對於非線性問題一味放寬約束條件只能導致大量樣本的錯分。

如何完成向高維的對映過程?

svm就是首先通過內積函式定義的非線性變換將輸入空間變換到乙個高維空間,在這個空間中求最優分類面。其分類函式形式上類似於乙個神經網路,輸出是中間節點的線性組合,每個中間節點對應乙個輸入樣本與乙個支援向量的內積,因此也被稱為支援向量網路。

高維對映核函式的選擇:

線性核函式(linear kernel)

多項式核函式(polynomial kernel)

徑向基核函式(radical basis function, rbf)

sigmoid 核函式(sigmoid tanh)

七、svm的特點:

其最終決策函式只有少數的支援向量所確定,計算的複雜性取決於支援向量的數目,而不是樣本空間的維數,在某種意義上避免了「維度災難」;

少數支援向量決定了最終結果,這樣能抓住關鍵樣本、剔除大量冗餘樣本;

特別用於解決小樣本的非線性可分問題。

十大經典資料探勘演算法 SVM

十大經典資料探勘演算法 系列 c4.5 k means svmapriori empagerank adaboost knnna ve bayes cart svm support vector machines 是分類演算法中應用廣泛 效果不錯的一類。統計學習方法 對svm的數學原理做了詳細推導與...

資料探勘十大經典演算法

最近想看看資料探勘是個什麼東西,因此特別的關注了下,首先看看資料探勘包含哪些演算法,網上找到了十大經典演算法 01.c4.5 是機器學習演算法中的一種分類決策樹演算法,其核心演算法是 id3演算法 02.k means演算法 是一種聚類演算法。03.svm 一種 監督式學習 的方法,廣泛運用於統計分...

資料探勘十大經典演算法

1 c4.5 2 k means 3 svm 4 apriori 5 em 6 pagerank 7 adaboost 8 knn 9 bayes 10 cart 1 c4.5 計算增益率 step1 計算資料集d的熵 單位為位元 info d step2 計算每個屬性的熵info x d step...