基於libsvm的中文文字分類原型,雖然做了原型,但是概念還不是很清晰。
「支援向量機方法是建立在統計學習理論的vc 維理論和結構風險最小原理基礎上」
結構化風險
結構化風險 = 經驗風險 + 置信風險
經驗風險 = 分類器在給定樣本上的誤差
置信風險 = 分類器在未知文字上分類的結果的誤差
置信風險因素:
提高樣本數量,降低vc維,降低置信風險。
以前機器學習的目標是降低經驗風險,要降低經驗風險,就要提高分類函式的複雜度,導致vc維很高,vc維高,置信風險就高,所以,結構風險也高。---- 這是svm比其他機器學習具有優勢的地方。下面就說說vc維是怎麼回事。
vc維
機器學習導論的解釋:假定我們有乙個資料集,包含n個點。這n個點可以用
具體參考:2.2 vc維
網友解釋:模式識別中vc維的直觀定義是:對乙個指示函式集,如果存在n個樣本能夠被函式集中的函式按所有可能的
具體參考:
為什麼直線函式的vc維是3呢不是4呢。因為對角線上的ad分不到一起,bc分不到一起。
a b
c d
總之:分類函式簡單,vc維低,分類函式複雜,vc維高。
從VC維和結構風險最小原理深入理解SVM
支援向量機方法是建立在統計學習理論的vc 維理論和結構風險最小原理基礎上。置信風險 分類器對 未知樣本進行分類,得到的誤差。經驗風險 訓練好的分類器,對訓練樣本重新分類得到的誤差。即樣本誤差 結構風險 置信風險 經驗風險 結構風險最小化就是為了防止過擬合而提出來的策略,貝葉斯估計中最大後驗概率估計就...
機器學習中的經驗風險,期望風險和結構風險最小化
機器學習任務幾乎沒有例外的都使用了損失函式cost function這一概念。常見的損失函式有平方誤差損失函式,交叉熵損失函式等,在分類任務中一般使用交叉熵損失函式,回歸問題中一般使用平方誤差損失函式。損失函式的核心思想是建立一種 結果和真實結果之間誤差的衡量標準,而機器學習的優化目標就是讓這個衡量...
機器學習中的經驗風險,期望風險和結構風險最小化
機器學習任務幾乎沒有例外的都使用了損失函式cost function這一概念。常見的損失函式有平方誤差損失函式,交叉熵損失函式等,在分類任務中一般使用交叉熵損失函式,回歸問題中一般使用平方誤差損失函式。損失函式的核心思想是建立一種 結果和真實結果之間誤差的衡量標準,而機器學習的優化目標就是讓這個衡量...