###簡介
vc維,全稱為vapnik-chervonenkis dimension,它反映了模型的學習能力,vc維越大,則模型的容量越大。
###通俗定義
vc維的通俗定義是:對於乙個指示函式集,如果存在h
hh個樣本能夠被函式集中的函式按所有可能的2h2^
2h種形式分開,則稱函式集能夠將h
hh個樣本打散,函式集的vc維就是它能夠打散的最大樣本數目hma
xh_hmax
。如果對任意數目的樣本,在該函式集中都能找到函式將它們打散,則稱該函式集的vc維是無窮大。
比如說,我們以二維平面中的線性分類器為例:
在按上圖給定二維平面中的3個點的位置之後(並未給出標籤),線性函式組成的集合能夠對所有8種情形正確進行分類。值得注意的是,按照上述定義來看,只要存在3個樣本能夠被成功打散,並且不存在4個樣本能夠被打散的話, 就稱這一函式集合的vc維是3。所以,我們稱二維線性函式集合所表示的分類器的vc維是3。
下面我們來看另外兩個例子:
#####例1
對於例1第二幅圖中給定的3個點而言,顯然二維線性函式集合不能對其正確分類;對於例2第二幅圖中給定的4個點而言,也不能正確分類。因此,我們說二維線性函式集合的vc維是3。
###理解
我們知道,在機器學習中,常常用到「模型」的概念,實際上,模型就是假設空間中的乙個函式。假設空間代表了一系列的函式,而我們的訓練過程就是在這個集合中找到乙個最優或近似最優的函式,來完成我們的任務。一般而言,vc維與模型容量成正相關關係。並不是與假設空間中模型個數正相關哦,比如說上面的二維線性函式集合,其中有無數個線性函式,但是其vc維仍然為3。
###參考
本文只是對vc維進行了簡要介紹,更加理論的部分大家可以參考博文《機器學習和資料探勘(7):vc維》。這篇博文我沒仔細看,有興趣的同學可以自己琢磨琢磨。
VC維再理解
為什麼80 的碼農都做不了架構師?看了台大的機器學習基石的課。講了很多周的vc維的知識,對vc維的認識還是有點模糊,在這裡梳理一下。vc維被認為是數學和電腦科學中非常重要的定量化概念,它可用來刻畫分類系統的效能。在機器學習裡我們常常看到這樣的說法 一般而言,vc維越大,學習能力就越強,學習也越複雜 ...
關於VC維的自我認識
vc維 傳統的定義是 對乙個指示函式集,如果存在h個樣本能夠被函式集中的函式按所有可能的2的h次方種形式分開,則稱函式集能夠把h個樣本打散 函式集的vc維就是它能打散的最大樣本數目h。若對任意數目的樣本都有函式能將它們打散,則函式集的vc維是無窮大,有界實函式的vc維可以通過用一定的閾值將它轉化成 ...
關於二維指標陣列的理解
一 二維陣列int a 3 3 a可以分解為3個一維指標,a a 0 a 1 a 陣列名代表 著陣列首元素的位址,假設 a 0 0 1000,則a 1000,a代表a的位址1000所指的記憶體a 0 同時a 0 也是乙個陣列,因此a 0 也是位址,a a a 0 a 0 0 a 0 1000.c語言...