對於任意非負隨機變數$x$,$\forall \epsilon>0$,有:
$\displaystyle p(x\ge\epsilon)\le\frac$
切比雪夫不等式是它的特例。
$ \begin e(x) &= \int_^xf(x)dx\\ &\ge \int_^xf(x)dx\\ &\ge \int_^\epsilon f(x)dx\\ &=\epsilon p(x\ge \epsilon)\\ \end$
把$\epsilon$除過去,得證。離散情況一樣。
對於隨機變數$x$,$p(x\in [a,b]) = 1,e(x)=0$,有:
$e(e^)\le e^$
因$e^$是關於$x$的凸函式,由凸函式性質:
$\displaystyle e^\le \frace^+\frace^$
於是對$x$取期望,有:
$ \begin \displaystyle e(e^) &\le \frace^+\frace^\\ & = \frace^-\frace^\\ & = \left(-\frac\right)e^\left(-\frac+e^{}\right)\\ \end$
因為$e(x)=0$,$x\in [a,b]$,而$a,b$都為0的情況沒有討論的意義,所以有$a<0,b>0$。令$\displaystyle\theta = -\frac>0$,則上式變為:
$ \begin \displaystyle e(e^) &\le \theta e^\left(\frac-1+e^\right)\\ &=(1-\theta + \theta e^)e^\\ \end$
因為$ \begin \displaystyle 1-\theta+\theta e^u = \theta(\frac-1+e^u) = \theta(-\frac+e^u)>0 \label{} \end $
所以不等式可以變為:
$\displaystyle e(e^)\le e^)}e^$
令$u = s(b-a)$:
$e(e^)\le e^$
定義$\varphi:r\to r,\varphi(u)= \ln(1-\theta+\theta e^u)-\theta u$。由$(1)$式可得這個函式是良定義的,也就是$\varphi(u)$的$\ln$並不限制$u$的取值。得:
$e(e^)\le e^$
由泰勒中值定理,$\exist\xi\in [0,u]$使
$\displaystyle\varphi(u)=\varphi(0)+u\varphi'(0)+\fracu^2\varphi''(\xi)$
其中:$ \begin \begin \varphi(0) = 0 \\ \varphi'(0)= \left.\left(\frac-\theta\right)\right|_=0 \\ \begin \varphi''(\xi) &= \frac(1-\theta+\theta e^)-\theta^2 e^})^2} \\ &=\frac}}(1-\frac}})\\ &=t(1-t)\le\frac \end \end \end $
因此有:
$\displaystyle\varphi(u)\le 0+0+\fracu^2\times\frac = \fracs^2(b-a)^2$
於是$e(e^)\le e^$
wiki的定義:
霍夫丁不等式適用於有界的隨機變數。設有兩兩獨立的一系列隨機變數$x_,\dots ,x_$。假設對所有的$x_$都是幾乎有界(看成有界就好了)的變數,即滿足:
$\displaystyle p(x_\in [a_,b_])=1$
那麼這n個隨機變數的經驗期望(均值):
$\displaystyle \overline = \frac$
滿足以下不等式:
$\displaystyle p(\overline-e(\overline)\ge t) \le \exp\left(- \frac^(b_i-a_i)^2}\right)$
$\displaystyle p(|\overline-e(\overline)|\ge t) \le 2 \exp\left(- \frac^(b_i-a_i)^2}\right)$
對於$x_1,x_2,...,x_n$,$n$個相互獨立的隨機變數(wiki裡面說是兩兩獨立,我感覺兩兩獨立$x_i$乘積的期望應該不能分離成期望的乘積,這裡我不太明確),$p(x_i\in [a_i,b_i])=1,1\le i\le n$,令
$\displaystyle s_n=\sum\limits_^x_i$
取$s>0,t>0$,由馬爾科夫不等式得:
$\begin p(s_n-e(s_n)\ge t) &= p(e^\ge e^)\\ &\le e^e(e^) \\ &= e^\prod\limits_^e(e^) \end $
再由引理得:
$ \begin p(s_n-e(s_n)\ge t) &\le e^\prod\limits_^ e^}\\ &=\exp(-st+\fracs^2\sum\limits_^n(b_i-a_i)^2) \end $
到這一步,不等式中還多出了乙個$s$,因為$\forall s>0$,都有以上不等式成立,因此取右邊關於$s$的二次函式的最小值。令
$\displaystyle g(s)=-st+\fracs^2\sum\limits_^n(b_i-a_i)^2$
求$g'(s)=0$,得:
$\displaystyle s = \frac^(b_i-a_i)^2}$
於是:$\displaystyle p(s_n-e(s_n)\ge t) \le \exp\left(- \frac^(b_i-a_i)^2}\right)$
變換成$x_i$的均值$\overline$,也就是:
$\displaystyle p(\overline-e(\overline)\ge t) \le \exp\left(- \frac^(b_i-a_i)^2}\right)$
取反後依然成立:
$\displaystyle p(e(\overline)-\overline\ge t) \le \exp\left(- \frac^(b_i-a_i)^2}\right)$
合到一起:
$\displaystyle p(|\overline-e(\overline)|\ge t) \le 2 \exp\left(- \frac^(b_i-a_i)^2}\right)$
得證。
機器學習 2 霍夫丁不等式
機器學習 2 霍夫丁不等式 這一章是為了說明機器學習的可行性的。為了解決乙個問題,即我們找到了乙個符合要求的函式f,這個函式在測試資料中準確率為90 那麼是否有該函式f在整體中的正確率也有90 或者說和90 相差不大。我上面說的話很重要,下面就是為了解決上面的問題,一般文章都是那從罐子裡取出小球做模...
霍夫丁 Hoeffding 不等式
1.霍夫丁引理 設 x 是均值為 0 的隨機變數,即 e x 0 且 x in a,b 則對於任意的 lambda in r 可以得到乙個關於區間長度 b a 的不等式 e e leq exp left b a right 由於隨機變數的期望為 0,所以必定有 a 0,b 0 引理證明 e 在區間 ...
opencv學習之霍夫變換
原理部分參見 標準霍夫變換示例 opencv 1.cpp 定義控制台應用程式的入口點。include stdafx.h include include includeusing namespace cv using namespace std int main imshow 邊緣檢測後的圖 midi...