從結構化風險最小化角度理解SVM

2021-07-08 16:32:13 字數 1487 閱讀 7396

2013-12-7

閱讀425

最近在討論班上,lxh同學講到structural svm with latent variables,最後大家提出了乙個問題:他講的怎麼沒體現出svm的思想啊??

剛開始我也是這麼想的,後來想了一下,也許可以換個角度理解svm。

統計學習方法由模型、策略和演算法構成。模型是選擇乙個概率分布模型或者決策函式空間來模擬樣本空間。策略是優化模型所用到的目標函式。演算法是解決最優化問題的方法。(具體可參見李航《統計學習方法》)

而svm的主要思想是「統計學習方法由模型、策略、演算法組成,建立乙個最優決策超平面,使得分類正負樣本距離這個超平面距離最大化。」

在這樣的思路下,問題就轉化成學習求解超平面的問題。即求解如下問題:

對於非線性可分問題為:

最優化問題第二項和約束項可以放到一起,用拉格拉日乘子表示為:

非線性可分問題同樣可以表示成這樣的形式。

從svm的發展可以知道,這種模型選擇的策略是結構化風險最小化,這就要先說到經驗風險。經驗風險是指所有樣本的損失函式之和,可表示為:

如果單純考慮最小化經驗風險(4),會導致過擬合問題(特別是樣本容量很小時),所以需要加上乙個懲罰項,約束模型複雜度,即得到結構化風險:

採用最小化結構風險(5)可得到經驗風險和置信範圍最小化的模型。貝葉斯最大後驗概率就是結構化風險最小化的乙個例子。

從結構風險最小化的角度看svm,顯然,(3)就是最小化結構風險函式,其中第一項是最小化模型複雜性,第二項是經驗風險。

然後再看latent structural svm問題,其模型為:

策略是最小化結構風險,最優化問題表達為:

公式(6)中第二項是經驗風險的上界,第一項是與常規svm相同,是為了最小化模型複雜度,提高模型的泛化能力,防止過擬合。

svm其實是統計學習方法中的一種,並不僅限於某一種表達形式,它是線性判別中的結構化風險最小化模型。

參考資料見:july部落格及其references

結構風險最小化

損失函式和風險函式 監督學習問題是在假設空間中選取模型f作為決策函式,對於給定的輸入x,由f x 給出相應的輸出y,這個輸出的 值f x 與真實值y可能一致也可能不一致,用乙個損失函式或代價函式來度量 錯誤的程度。損失函式是f x 和y的非負實值函式,記作l y,f x 損失函式值越小,模型就越好。...

經驗風險最小化

前面提到,機器學習的目的就是根據一些訓練樣本 尋找乙個最優的函式,使得函式對輸入 x的估計y 與實際輸出y之間的期望風險 可以暫時理解為誤差 最小化。期望風險最小化 依賴於樣本的輸入 x與其輸出 y之間的函式對映關係f x,y 而這個對映關係,在機器視覺和模式識別系統中,一般指代先驗概率和類條件概率...

經驗風險最小化

前面提到,機器學習的目的就是根據一些訓練樣本 尋找乙個最優的函式,使得函式對輸入 x的估計y 與實際輸出y之間的期望風險 可以暫時理解為誤差 最小化。期望風險最小化 依賴於樣本的輸入 x與其輸出 y之間的函式對映關係f x,y 而這個對映關係,在機器視覺和模式識別系統中,一般指代先驗概率和類條件概率...