[機器學習][2]--霍夫丁不等式
這一章是為了說明機器學習的可行性的。為了解決乙個問題,即我們找到了乙個符合要求的函式f,這個函式在測試資料中準確率為90%,那麼是否有該函式f在整體中的正確率也有90%,或者說和90%相差不大。
我上面說的話很重要,下面就是為了解決上面的問題,一般文章都是那從罐子裡取出小球做模擬。
下面我放一篇參考文章機器學習的可能性。
我自己就來講講這個內容。
如上圖,我們要估計罐子中綠色球所佔的比例,但是我們不能把所有球都取出來,這時我們就想到了取樣,然後看看取出的樣本中綠色的球所佔的比例。
那麼我們要想得就是,樣本要取多少呢。
不要擔心,我們有霍夫丁不等式
v和u(不打那兩個符號了,大家看得明白就可以了),v代表罐子中綠色球實際的比例,這個比例我們不知道,我們想要估計他,u是樣本中綠色所佔的比例。然後就由上面的不等式可以得到 u和v 的差大於乙個我們所給誤差的概率小於乙個數(右邊那個數),我們可以看到,是隨著n的增大而減小,隨著
在機器學習中也是一樣的,我們為了估計我們得到的函式f的準確率,就看f在我們有的樣本中的準確率,以此來估計f對於整個系統的正確率。
但是,有的時候,我們有好多個需要評價的函式,這個時候還能用上面的方法嗎?
答案是不能的。
看上面一張,我們可以看到當備選情況增多是,會發生像最後一張圖一樣的情形。我們對我們抽到的樣本進行比較,發現全是綠的(在機器學習中,也就是用f這個函式可以全部**正確),我們就認為他是最好的,但實際上,我們可以看罐子裡還有其他顏色的球,綠的甚至還沒有第二個罐子多,(也就是最後乙個罐子還沒有第二個罐子好,在機器學習中,也就是用f2這個函式比f這個函式好,但我們得到確實f比f2好
)顯然這是不對的。
要是上面的還是不能理解,那我們在看乙個例子。
1個人,擲五次硬幣,五次都向上的概率為 1/32
100個人,擲五次硬幣,只要有乙個人五次都向上的概率為 0.95
上面,100人代表有100個備選的函式,擲五次硬幣
代表樣本為5個,硬幣向上代表函式**正確,這100個硬幣本是一樣的,即是一樣的函式,但是我們卻可以從中找出滿足條件的函式,即可以使得正確率為
100%。
那麼我們應該如何解決呢,很明顯,我們應該增加樣本數量,即增加擲硬幣的次數
100個人,擲20次硬幣,只要有乙個人五次都向上的概率為 9.5*10(-5),也就是0.000095,這樣發生的概率就小很多了。
也就是說,我們的備選函式越多,最後用來檢驗的樣本量也應該越多。
到上面你能看懂的話,問題就基本解決了,
一句話概括就是要增大樣本量
。
下面我們在看看用霍夫丁不等式
來解決上面的問題。
上面的式子也是比較簡單就得到了,就是放縮就可以了。
解釋一下上面的 p[bad d]:p[bad d]就表示|u-v|>
橙色的bad d就表示我們最終找到的最優的那個函式,他應該是等於備選函式中的乙個,所以有了第二個等式,接著就是拆開,變成大於號,就這再用
我們看一下最後乙個等號後面的式子,有個m,m表示的就是備選函式的數量,可以看到m越大,容易出現
bad d的可能性也就越大,這個時候我們就要增加樣本數量n了。
到這裡就大概把機器學習最後驗證式子能成立的原因講明白了,裡面加了一些我自己的理解,大家可以多多交流,有不對的望指出,一定改正。
下面還是講一下我自己做的乙個小作品。
下面鏈結是自己做的乙個小作品,是用來學習漢字結構的,我們將漢字的結構具體展現出來了,擺脫了以往漢字教學中的模糊概念,希望大家可以看看多提提意見。
漢字結構學習
以上,所有
2017/2/10
霍夫丁 Hoeffding 不等式
1.霍夫丁引理 設 x 是均值為 0 的隨機變數,即 e x 0 且 x in a,b 則對於任意的 lambda in r 可以得到乙個關於區間長度 b a 的不等式 e e leq exp left b a right 由於隨機變數的期望為 0,所以必定有 a 0,b 0 引理證明 e 在區間 ...
機器學習 霍夫丁(Hoeffding)不等式證明
對於任意非負隨機變數 x forall epsilon 0 有 displaystyle p x ge epsilon le frac 切比雪夫不等式是它的特例。begin e x int xf x dx ge int xf x dx ge int epsilon f x dx epsilon p ...
馬爾可夫 Markov 不等式
馬爾可夫不等式把概率關聯到數學期望,給出了隨機變數的分布函式乙個寬泛但仍有用的界。令 x 為非負隨機變數,且假設 e x 存在,則對任意的 a 0 有 p left leq frac 馬爾可夫不等式是用來估計尾部事件的概率上界,乙個直觀的例子是 如果 x 是工資,那麼 e x 就是平均工資,假設 a...