機器學習 2 霍夫丁不等式

[機器學習][2]--霍夫丁不等式

這一章是為了說明機器學習的可行性的。為了解決乙個問題，即我們找到了乙個符合要求的函式f，這個函式在測試資料中準確率為90%，那麼是否有該函式f在整體中的正確率也有90%，或者說和90%相差不大。

我上面說的話很重要，下面就是為了解決上面的問題，一般文章都是那從罐子裡取出小球做模擬。

下面我放一篇參考文章機器學習的可能性。

我自己就來講講這個內容。

如上圖，我們要估計罐子中綠色球所佔的比例，但是我們不能把所有球都取出來，這時我們就想到了取樣，然後看看取出的樣本中綠色的球所佔的比例。

那麼我們要想得就是，樣本要取多少呢。

不要擔心，我們有霍夫丁不等式

v和u(不打那兩個符號了，大家看得明白就可以了),v代表罐子中綠色球實際的比例,這個比例我們不知道，我們想要估計他,u是樣本中綠色所佔的比例。然後就由上面的不等式可以得到 u和v 的差大於乙個我們所給誤差的概率小於乙個數(右邊那個數),我們可以看到，是隨著n的增大而減小，隨著

在機器學習中也是一樣的，我們為了估計我們得到的函式f的準確率，就看f在我們有的樣本中的準確率，以此來估計f對於整個系統的正確率。

但是，有的時候，我們有好多個需要評價的函式，這個時候還能用上面的方法嗎？

答案是不能的。

看上面一張，我們可以看到當備選情況增多是，會發生像最後一張圖一樣的情形。我們對我們抽到的樣本進行比較，發現全是綠的(在機器學習中，也就是用f這個函式可以全部**正確)，我們就認為他是最好的，但實際上，我們可以看罐子裡還有其他顏色的球，綠的甚至還沒有第二個罐子多，(也就是最後乙個罐子還沒有第二個罐子好，在機器學習中，也就是用f2這個函式比f這個函式好，但我們得到確實f比f2好

)顯然這是不對的。

要是上面的還是不能理解，那我們在看乙個例子。

1個人，擲五次硬幣，五次都向上的概率為 1/32

100個人，擲五次硬幣，只要有乙個人五次都向上的概率為 0.95

上面，100人代表有100個備選的函式，擲五次硬幣

代表樣本為5個，硬幣向上代表函式**正確，這100個硬幣本是一樣的，即是一樣的函式，但是我們卻可以從中找出滿足條件的函式，即可以使得正確率為

100%。

那麼我們應該如何解決呢，很明顯，我們應該增加樣本數量，即增加擲硬幣的次數

100個人，擲20次硬幣，只要有乙個人五次都向上的概率為 9.5*10（-5），也就是0.000095，這樣發生的概率就小很多了。

也就是說，我們的備選函式越多，最後用來檢驗的樣本量也應該越多。

到上面你能看懂的話，問題就基本解決了，

一句話概括就是要增大樣本量

。

下面我們在看看用霍夫丁不等式

來解決上面的問題。

上面的式子也是比較簡單就得到了，就是放縮就可以了。

解釋一下上面的 p[bad d]:p[bad d]就表示|u-v|>

橙色的bad d就表示我們最終找到的最優的那個函式，他應該是等於備選函式中的乙個，所以有了第二個等式，接著就是拆開，變成大於號，就這再用

我們看一下最後乙個等號後面的式子，有個m，m表示的就是備選函式的數量，可以看到m越大，容易出現

bad d的可能性也就越大，這個時候我們就要增加樣本數量n了。

到這裡就大概把機器學習最後驗證式子能成立的原因講明白了，裡面加了一些我自己的理解，大家可以多多交流，有不對的望指出，一定改正。

下面還是講一下我自己做的乙個小作品。

下面鏈結是自己做的乙個小作品，是用來學習漢字結構的，我們將漢字的結構具體展現出來了，擺脫了以往漢字教學中的模糊概念，希望大家可以看看多提提意見。

漢字結構學習

以上，所有

2017/2/10

機器學習 2 霍夫丁不等式

霍夫丁 Hoeffding 不等式

機器學習霍夫丁（Hoeffding）不等式證明

馬爾可夫 Markov 不等式

機器學習 2 霍夫丁不等式

霍夫丁 Hoeffding 不等式

機器學習 霍夫丁（Hoeffding）不等式證明

馬爾可夫 Markov 不等式

相關推薦

機器學習霍夫丁（Hoeffding）不等式證明