今天我們聊聊大數定律(law of large numbers,lln),這個概率論中的重要基石。
(最後面有一道測試題,有興趣的同學可以挑戰看看)
大數定律講了一件什麼事情?簡單的來講,它告訴我們在隨機事件的大量重複出現中,往往呈現幾乎必然的規律。在試驗不變的條件下,重複試驗多次,隨機事件的概率近似於它出現的頻率。
舉個例子,投硬幣。一枚硬幣被丟擲後有50%的可能為正面或者背面,在小樣本的情況下,隨機拋硬幣的結果可能並不明顯或者說結果沒有規律,不穩定等等等等,10次裡可能有4次正面6次背面,也可能是7次正面3次背面,這很正常。但是隨著我們拋硬幣的次數的增多,正面和反面出現次數就會越來越接近於相同。
我們用卡方分布來驗證這種穩定性如下圖,開始在小樣本情況下,樣本均值非常的不穩定,但是當樣本量繼續增大後,樣本均值的收斂性已經非常的明顯,基本收斂到均值3附近。
在我們的生活中處處可以看到有趣的大數定律
一位人口統計學家調查發現,歐洲各地的男嬰與女嬰的出生比例是22:21,但是發現法國巴黎的比例是25:24,這非常小的差別促使他決心去搞個明白。最後驚人的發現,當時巴黎重女輕男,一些人會丟棄男嬰,經過一些修正後,巴黎的這個比例依然是22:21。而中國的歷次人口普查的結果也是22:21。
既然我們在強調大數定律的嚴格數學形式,下面我們會給出大數定律數學定義:
首先我們要知道大數定律依照收斂的形式分為強大數定律和弱大數定律
我們依然畫圖來描述弱大數定律
上圖虛線部分表示乙個任意小的實數,每條實線表示乙個數列,可以看到當樣本不斷增加後,數列會逐漸收斂到虛線部分裡面,偶然會有幾條跑出來。這個就叫做弱大數定律的依概率收斂。
我們依然畫圖來描述強大數定律
相比較弱大數定律,強大數定律表徵著當數列樣本量增大後,它再也不會超出虛線所表示的邊界,也就是超出這個邊界的概率就是0了。這個就叫做強大數定律的處處收斂。
下面我們介紹切比雪夫不等式和切比雪夫大數定律,這2個是我認為比較重要的東東,因為其它大數定律的證明或多或少的都會用到它們。
最後的最後是測試題
還是拋硬幣問題,假設絕對公平的拋硬幣。連續丟擲999次,每次都得到正面。我下一次拋硬幣的情況是?
a.出正概率大
b.出反概率大
c.各佔50%
書摘 什麼是大數定律
有時,比研究具體數值更好的方法是研究比率 死亡人口在總人口中的比率。比如,我們可以計算美國各州每年死於腦癌的人在該州人口中所佔的比例,而無須逐州統計死於腦癌的人數等原始資料。按照這種方法,得出的排行榜完全不同。南達科他州很不幸地位列榜首,每10萬人中每年死於腦癌的人數為5.7人,遠遠超出每年3.4人...
Apache Flink 漫談系列 01 序
apache flink 漫談系列 分享的內容和觀點與任何公司,組織無關,僅代表我個人的認知,純屬技術愛好的分享 本人 孫金城,花名 金竹 阿里巴巴高階技術專家,apache flink committer。目前就職於阿里巴巴計算平台事業部,自2015年以來一直投入於基於apache flink的設...
CTR預估系列模型漫談
了解fm模型之前,需要先說一下lr帶入一下場景。lr作為早期ctr預估裡面的模型,其速度上有著無可比擬的優勢,而偏偏ctr場景下伴隨著有大量的離散特徵,高維稀疏特徵,這個很適合lr的場景。lr整個模型可以被描述為乙個公式 y w 0 sum w i x i lr的特點就是簡單高效速度快可解釋性強,但...