本文給可供有興趣的高中生以及大一新生了解統計學的幾種特殊分布及它們之間的關係。由於篇幅所限,文章重點在於解釋其內在聯絡,對於較為繁瑣的推導進行了略去。有興趣的同學可以自行查詢更多資料。
此外,大學課程中推導數學期望和方差,更多地用到矩量母函式(moment generating function,簡稱mgf);但考慮本文的內容本就比較基礎,筆者盡量採用了更樸素的方法求解。
常見的取球模型,是高中內容,詳見:
forward star:超幾何分布的數學期望與方差推導zhuanlan.zhihu.com
當球趨近於無窮時,超幾何分布可看做二項分布。
超幾何分布與二項分布不同的地方在於:超幾何分布是取出不放回,因此每次抽取的概率是不同的;二項分布則是取出放回,因此每次抽取概率相同。換言之,超幾何分布的概率受「抽取」這一過程的干預,而二項分布則更多為自然現象等,不受抽取過程的干預。
二項分布也可看做超幾何分布中
都很大的情況,此時取出不放回對概率的影響已經非常非常小了。那麼我們可以把抽取
類物品的概率看作
,那麼抽取另一類物品的概率則為
。注意無論是二項分布和超幾何分布,其每次試驗都只有兩種結果。
二項分布的各種推導略。不過從二項分布中,我們也可以發現一些有趣的性質,詳見:
forward star:從遞推與多項式的角度理解二項分布zhuanlan.zhihu.com
這個是二項分布的退化版,相當於二項分布的單次試驗,二項分布也可稱為
重伯努利試驗。因此其概率為
,期望
,方差
。容易發現,期望與方差正好都是二項分布的
。負二項分布則是在二項分布的基礎上,已經確定最後一次抽取的結果。這最常見的就是比賽問題。在高中時,我們遇到比賽問題往往是分類討論;對於五局三勝問題,我們討論三回合結束、四回合結束、五回合結束的情況,從而彙總為某方勝利的概率。實際上,這種「
回合結束」型的問題也是負二項分布的一種。
由於限定了最後一次抽取的結果,那麼這時我們只能考慮前
次結果的順序安排了。由於兩類時間出現的次數仍然不變,我們只用改變二項分布的組合數係數即可,即把
改為 。
期望 ,方差
,推導略。如果令
,你可能感覺這種情況非常熟悉。它經常在我們生活**現,比如抽卡,假如成功的概率為
,那麼平均抽幾次才能成功?直覺告訴我們是
,這也符合上述公式。
其實也就是剛剛負二項分布的
情況。更準確的說,是在
重伯努利試驗中,第
次才抽到預期結果的情況。那麼此時概率函式為
。被稱為幾何分布,是因為它也是乙個等比數列。那麼在推導期望時,用錯位相減即可。
期望和方差代入上述負二項分布,令
即可,這裡不再贅述。
上述分布基本都是高中內容,從這裡開始就真正進入大學內容了。
我們說當超幾何分布的
很大時,轉化為二項分布,那麼當二項分布的
很大時呢?這個時候就用到泊松分布了。因此它的概率為
。然而這個式子在數學上非常不好計算,我們看看能不能把
轉化為具有其他現實意義的量。
回歸到
,什麼時候
很大呢?二項分布是離散的乙個乙個離散試驗,假如是一段連續時間呢?如果是一段時間出現了
次事件,此時每個事件的出現只是乙個點,但是時間線段卻是連續的!
怎麼辦?連續問題離散化!把線段分成無窮多份。那麼此時,就出現了
的情況了。
那此時
是什麼呢?假設在原本的那一段時間中,該事件平均出現
次,那麼平均到每乙份,出現概率則為
。於是就可以對概率化簡了,得:
即: 泊松分布的期望和方差都是
,回想
的含義,也容易解釋其為什麼為期望。具體推導過程略。
上述分布都是離散分布,到這裡開始就是連續分布了。
指數分布和幾何分布有些類似,是「等待時間」。但是幾何分布中
的意義是「等待次數」,它是離散的,而此處則不然。
既然是等待時間,那麼在這段時間自然是不允許出現期望的事件,所以對應著泊松分布的
。不過我們也容易發現問題,如果這樣計算,那麼它的概率就是固定的乙個值了,顯然違背常理。
這裡就又要追溯回
的含義了,是一段時間**現事件數的平均值,那麼我們只需要把
乘上一定的比例,對應為「等待時間」長度的平均值即可。那麼
,其中
即為時間比例,
為等待時間的最大值。
這一步轉化有一定的理解難度,就好比原先二項分布中只有
在變,而現在
同時是變數了(也就是
)。(這有點像是做偏序時多了乙個維度,而我們通過排序把它轉化為低維的問題。)
上述為指數分布和泊松分布的聯絡,我們又提到過指數分布和幾何分布有些類似,那麼能不能從幾何分布的角度來理解呢?
我們用類似於泊松分布的方法,把幾何分布的
替換為
,然後令
趨於無窮,那麼
。由於在連續問題中,乙個點的影響我們可以忽略,那麼我們把
略去,即
。因此
,得到結果是一樣的。
我們令
為單位時間事件出現次數的平均值,那麼
,最終結果則為
。 而
是累積分布函式,它描述著一段範圍的概率。而在統計中,為了與離散分布列中的每個事件相對應,我們定義質量密度函式來表示其某一點,因此質量密度函式為
。由於符合指數形式,這種分布稱為指數分布,和幾何分布的形式有幾分相似。實際表示中我們常把
替換為
,即 。
在泊松分布中,我們把連續問題離散化。因此在求期望時,我們看到的仍是求和符號。連續分布則不然,是積分號了。因此它的期望不再像幾何分布一般用錯位相減,而是:
因此其期望為
。回憶負二項分布中
的情況,我們用直覺去理解它的期望;類似地,我們拋開這些抽象的計算過程,思考期望的實際意義和本質。其實,它的期望可表述為「若單位時間內事件出現次數的平均值為
,求出現第一次事件的平均等待時間「。那麼和負二項分布的不同之處,無非是把概率換成了頻率,也就是
,而 ,因此結果是相等的。
另外,指數分布的方差為
,推導過程略。
超幾何分布與二項分布及其期望
驚奇的發現選修2 3上有期望的介紹,不過我沒有課本啊qwq。只能去網上找資料了。這兩節我感覺比較有意思,就記一下吧 名字真高大上 超幾何分布 hypergeometric distribution 是統計學上一種離散概率分布。它描述了由有限個物件中抽出 n 個物件,成功抽出指定種類的物件的個數 不歸...
超幾何分布及在python中的簡單運用
超幾何分布 超幾何分布屬於離散型隨機變數的概率分布問題,隨機變數可以取有限個值,在每取乙個值時可以求出乙個概率,此時求解的方法就是採用古典概型公式 產品抽樣檢查中經常遇到一類實際問題,假定在n件產品中有m件不合格品,即不合格率 在產品中隨機抽n件做檢查,發現k件不合格品的 概率為 k 0,1,2,m...
學習筆記 正態分佈
1 很多自然現象近似地服從正態分佈,雖然根本原因經常是未知的,但是理論上可以證明如果把許多小作用加起來看做乙個變數,那麼這個變數服從正態分佈。2 說明乙個隨機變數。最直觀的方法是概率密度函式,這種方法能夠表示隨機變數每個取值有多大的可能性。3 正態分佈的概率密度函式 均值為 方差為 2 或標準差 是...