考慮如下的遊戲:有乙個魔盒(隨機數生成器),上有乙個按鈕,每按一下按鈕,就均勻地輸出乙個 u∼
[0,1
] 之間的隨機數,現在按上下,得到10個隨機數,第7大的數是多少?我更進一步發問,第7大的數,要求猜測不超過0.01才算對。
對上面的遊戲作如下的數學抽象:
x1
,x2,
⋯,xn
∼iid
u(0,
1)把這
n 個隨機變數排序後得到的順序統計量x(
1),x
(2),
…,x(
n)問 x(
k)的分布是什麼?
對於上面的遊戲而言 n=
10,k=
7 ,如果我們能求出 x(
7)的分布的概率密度,那麼用概率密度的極值點取做猜測是最好的策略。對於一般的情形,x(
k)的分布是什麼呢?那麼我們嘗試計算 x(
k)落在區間 [x
,x+δ
x]的概率,也即求如下的概率值: p(
x≤x(
k)≤x
+δx)
=?把 [0
,1] 區間內分為三段 [0
,x),
[x,x
+δx]
,(x+
δx,1
] ,我們首先考慮簡單的情形(這不正是數學研究的基本方**嗎,從簡單到複雜),假設
n 個數中只有乙個落在了區間 [x
,x+δ
x]內,則因為要求這個區間的數 x(
k)是第
k 大的,
- 則 [0
,x)中應該有 k−
1 個數, - (
x+δx
] 這個區間中應該有 n−
k 個數。
不失一般性的,我們先考慮如下的乙個符合上述要求的事件
則有: p(
e)==
∏i=1
np(x
i)xk
−1(1
−x−δ
x)n−
kδx
對 (1−
x−δx
)n−k
應用二項展開,也即: (1
−x−δ
x)n−
k==(
n−k0
)(1−
x)n−
k(−δ
x)0+
(n−k
1)(1
−x)n
−k−1
(−δx
)1+⋯
+(n−
kn−k
)(1−
x)0(
−δx)
n−k(
1−x)
n−k+
o(δx
) 其中 o(δ
x)表示 δx
的高階無窮小,所以,可對 p(
e),繼續展開得: p(
e)==
==∏i
=1np
(xi)
xk−1
(1−x
−δx)
n−kδ
xxk−
1[(1
−x)n
−k+o
(δx)
]δxx
k−1(
1−x)
n−kδ
x 再來考慮這之中的組合數,也即
n 個數中有乙個落在 [x
,x+δ
x]區間得有
n 中取法,餘下的 n−
1個數中有 k−
1 個落在 [0
,x) 的有(n
−1k−
1)中組合,故與事件
e 等價的事件一共有 n(
n−1k
−1)個。
繼續考慮稍微複雜一點的情形,假設
n 個數有兩個數落在了區間 [x
,x+δ
x], e
′=則有: p(
e′)=
xk−2
(1−x
−δx)
n−k(
δx)2
=o(δ
x)從以上的分析我們很容易看出,只要落在 [x
,x+δ
x]內的數字超過乙個,則對應的事件的概率就是 o(
δx) 。於是: p(
x≤x(
k)≤x
+δx)
==n(
n−1k
−1)p
(e)n
(n−1
k−1)
xk−1
(1−x
)n−k
δx+o
(δx)
所以可以得到x(
k)的概率密度為: p(
x(k)
)===
limδx→
0p(x
≤x(k
)≤x+
δx)δ
xn(n
−1k−
1)xk
−1(1
−x)n
−kn!
(k−1
)!(n
−k)!
xk−1
(1−x
)n−k
x∈[0
,1]
利用gamma函式,我們可以把 f(
x)表達為: f(
x)=γ
(n+1
)γ(k
)γ(n
−k+1
)xk−
1(1−
x)n−
k 還記得神奇的gamma函式可以把許多數學概念從整數集合延拓到實數集合。
我們記 α=
k,β=
n−k+
1 ,於是我們得到: p(
x(k)
)=γ(
α+β)
γ(α)
γ(β)
xα−1
(1−x
)β−1
這就是一般意義上的beta分布。
好,我們回到開始的遊戲,n=
10,k=
7 ,我們按照如下的密度分布的峰值取猜測是最有把握的: f(
x)=10
!6!3
!x6(
1−x)
3x∈[
0,1]
beta分布 Beta 分布的物理意義
假設某個硬幣,在toss之後,可以很穩定的以 那麼顯然,在 已知的情況下,發生的概率服從二項分布,其pmf probability mass functions 為 而的邊緣pmf需要對聯合概率分布 關於求積分,即 我們對 沒有任何先驗知識。那也就是意味著,我們不知道 的取值更傾向於哪些數 概率或概...
beta分布 多項分布與Dirichlet分布
前文我們介紹過二項分布與beta分布,本文是其乙個更加generalized的版本。首先我們先看乙個例子 假設我們有乙個六個面的公平骰子,即,每個面出現的概率都是1 6。我們擲骰子 可以看出,與硬幣不同,骰子有六個面,擲骰子結果不僅僅有兩種可能,有多種可能。我們把這個模型generalize一下,對...
如何理解beta分布?
81 219 81,219 8181 219 0.27 8181 219 0.27 從圖中可以看到這個分布主要落在了 0.2,0.35 間,這是從經驗中得出的合理的範圍。0 hits,0 misses beta 0 hits,0 misses 0 0 和 0 0是一開始的引數,在這裡是81和219。...