之前我們採用的例子是比較規整的資料例子,大家請看下面的資料分布。
你覺得上面的分類效果好嘛?我覺得不是特別好,原因就是實際上我們感覺我們寧可錯分乙個,也不想出現上述這種比較緊湊的情況,再看下面的分法:
上圖中的實線作為最優的分割線貌似才是我們心中的答案,當然你也可以不認同這一點,然後不加入鬆弛變數,這樣的效果就是第一幅圖的效果,如果你更認同後面這幅圖的效果,那你就可以採用鬆弛變數的svm的模型。
如果說上面的情況你還有選擇的話,那下面的情況貌似你就沒有選擇了。
之前的情況是線性可分的,而現在的資料是線性不可分的,當然你可以選擇使用核函式來解決這個問題(我們後續會講解)。此處我們單單考慮是否使用鬆弛變數的話,此時的答案應該是必須,不然你再也無法找到一條能完全分隔兩份資料的分割線了。
好,上面就是我們的問題背景,下面我們講解一下如何加入鬆弛變數。
SVM入門(八)鬆弛變數
現在我們已經把乙個本來線性不可分的文字分類問題,通過對映到高維空間而變成了線性可分的。就像下圖這樣 圓形和方形的點各有成千上萬個 畢竟,這就是我們訓練集中文件的數量嘛,當然很大了 現在想象我們有另乙個訓練集,只比原先這個訓練集多了一篇文章,對映到高維空間以後 當然,也使用了相同的核函式 也就多了乙個...
SVM入門(八)鬆弛變數
現在我們已經把乙個本來線性不可分的文字分類問題,通過對映到高維空間而變成了線性可分的。就像下圖這樣 圓形和方形的點各有成千上萬個 畢竟,這就是我們訓練集中文件的數量嘛,當然很大了 現在想象我們有另乙個訓練集,只比原先這個訓練集多了一篇文章,對映到高維空間以後 當然,也使用了相同的核函式 也就多了乙個...
SVM入門(九)鬆弛變數(續)
接下來要說的東西其實不是鬆弛變數本身,但由於是為了使用鬆弛變數才引入的,因此放在這裡也算合適,那就是懲罰因子c。回頭看一眼引入了鬆弛變數以後的優化問題 注意其中c的位置,也可以回想一下c所起的作用 表徵你有多麼重視離群點,c越大越重視,越不想丟掉它們 這個式子是以前做svm的人寫的,大家也就這麼用,...