1 svm尋找區分兩類的超平面,使邊際最大。
2 線性可區分,線性不可區分
3 所有坐落在邊際兩邊的超平面上的點被稱為支援向量。
4 最大邊際距離為2/||w|| (其中||w||為向量範數)
5 svm特點
5.1 訓練好的模型的演算法複雜度是由支援向量的個數決定的,而不是由資料維度決定的,所以svm不太容易產生過擬合。
5.2 svm訓練出的模型完全依賴於支援向量,即使訓練集裡面所有的非支援向量都去除,重複訓練過程,仍然會得到同樣的模型。
5.3 乙個svm如果訓練出的支援向量的個數比較少,svm訓練出的模型比較容易泛化。
6 線性不可分解決辦法
(1)利用乙個非線性的對映,把原資料集中的向量點轉化到乙個更高維度的空間中。
(2)在這個高緯度的空間中找乙個線性的超平面來根據線性可分的情況處理。
7 如何利用非線性對映將原資料對映到高維空間?
8 核方法(解決內積運算複雜度高的問題)
9 拉格朗日
問答題1 一句話總結支援向量機演算法的最大特點
答:svm的最大特點是能構造出最大間距的決策邊界,從而提高分類演算法的魯棒性。
2 在支援向量機裡,為什麼吧類別標識定義為[-1,1]?
答:為了讓數學表達盡量簡潔。詳見《scikit-learn 機器學習》中p136.
3 什麼是鬆弛係數,它有什麼作用?
答:資料樣本違反最大間距規則的程度。
4 一句話總結什麼是核函式?什麼是相似性函式?二者有什麼關係?
答:核函式定義為特徵向量的內積;
相似性函式是特徵對映函式。
5 常用的核函式有哪些?分別有什麼特點?
答:線性函式,多項式核函式,高斯核函式
線性函式:直接計算兩個輸入特徵向量的內積。
優點:簡單、運算效率高,因為不涉及複雜的變換;結果易解釋,因為總能生成乙個最簡潔的線性分隔超平面。
缺點:對線性不可分的資料集沒有很好的辦法。
多項式核函式:通過多項式來作為特徵對映函式。
優點:可以擬合出複雜的分隔超平面。
缺點:可選引數太多,選擇一組合適的引數比較困難;
多項式階數不宜太高,否則會給模型求解帶來一些計算困難。
高斯核函式:可以把輸入特徵對映到無限多維。
優點:比線性核函式功能上強大很多,並且沒有多項式核函式的數值計算那麼困難,因為它計算出來的值在[0,1]。
引數容易選擇。
缺點:不容易解釋,因為對映到無限多維向量空間不直觀;
計算速度慢;
容易造成過擬合,原因是對映到無限維向量空間是非常複雜的模型,它會試圖擬合所有的樣本。
SVM學習筆記
svm方法被稱為最大間隔分類,考慮乙個兩個feature的例子,如下圖所示,所有的劃分都是正確的,但顯然紅色的線是最好的劃分,因為其抵抗擾動的能力更強,容錯性更好,魯棒性好。兩類中最靠近分類界限的點沿分類線 平面 的距離最大,這個距離就是所謂的magin,中文應該是間隔的意思。如下圖中的紅色兩個點,...
SVM學習筆記
最近在做模式識別,想通過svm opencv vs2015 mnist實現手寫數字識別,老師要求自己把模式識別的演算法寫出來,自己之前就對支援向量機的強大功能表示出興趣,正好利用這個機會好好學習一下svm,因此這就是這篇博文的由來。第一次寫博文,主要是作為乙個筆記記錄的工作,如果我的文章對你有一些幫...
機器學習筆記 SVM
優點 泛化錯誤率低,計算開銷不大,結果易解釋。缺點 對引數調節和核函式的選擇敏感,原始分類器不加修改僅適用於處理二類問題。適用資料型別 數值型和標稱型資料 支援向量機最主要的還是選出離分隔超平面最近的點,這些點叫支援向量,然後最大化支援向量到分隔面的距離。不能耐心的看完svm的理論了,實在是太多。等...