貝葉斯解釋
參考資料
在統計學理論的估計中,用不放回抽樣來估計離散型均勻分布最大值問題在英語世界中是著名的德國坦克問題(german tank problem),它因在第二次世界大戰中用於估計德國坦克數量而得名。本文將從頻率以及貝葉斯的角度探索坦克問題。
假設所有的德國坦克是從1開始按自然數遞增編號的,坦克的總數為n,也就是說坦克的最大編號為n。盟軍在戰鬥中共隨機俘獲/擊毀了k輛坦克,且這些坦克的最大編號為m,那麼應當如何對n的大小進行估計?
盟軍利用統計理論做的的估計取得了很棒的結果,與德軍真實資料非常接近,如下表所示:
月份統計估計
情報估計
德國記錄
1940-06
1691000
1221941-06
2441550
2711942-08
3271550
342
上面的問題,轉化為數學問題是:用不放回抽樣
來估計離散型均勻分布
的最大值
。
已知樣本數量k
和樣本最大值m
,求群體最大值n
。
定義樣本最大值隨機變數m,那麼pm
(m)=
(m−1
k−1)
(nk)
。 m的期望為:em
(m)=
μm=∑
nm=k
m∗(m
−1k−
1)(n
k)=k
(n+1
)k+1
因此,n=
μm(1
+k−1
)−1 ,問題轉化為了求μm
。 因為實驗只進行了一次(實際上也無法進行多次),因此以單詞實驗的值作為μm
的估計值,即μm
=m。所以有: n^
=m(1
+k−1
)−1
n^=m
(1+k
−1)−
1=m+
m−kk
直觀理解如上,群體最大值的估計值等於樣本最大值加上樣本觀測值之間的平均距離。
假定抽樣後放回以簡化計算,記k次抽樣都集中在分位數p內,那麼該k次抽樣出現的的概率為p=
qk。
設兩個概率p1
,p2 ,那麼其對應的分位數為[p
11/k
,p21
/k] ,其對應樣本的抽樣區間的最大值為[n
∗p11
/k,n
∗p21
/k] 。
那麼,已知樣本最大值m,估計群體最大值的置信區間為[m
/p21
/k,m
/p11
/k] 。
例如,k=5,p1=2.5%,p2=97.5%。那麼置信區間大約為
[1.005m,
2.09m]
。更一般地,若選擇95%置信區間[m
,m/0.051/
k],對於一系列的k,可得下表:
k點估計值
置信區間12m
[m,20m]
21.5m
[m,4.5m]
51.2m
[m,1.82m]
101.1m
[m,1.35m]
201.05m
[m,1.16m]
貝葉斯法,在給定m,k的情況下使用貝葉斯公式計算n的概率分布,然後再求期望和方差。p(
n|m,
k)=p
(n,m
,k)p
(m,k
)=p(
m|n,
k)p(
n|k)
p(k)
p(m|
k)p(
k)=p
(m|n
,k)p
(n|k
)p(m
|k)=
p(m|
n,k)
p(n|
k)∑n
p(m|
n,k)
p(n|
k)對於p(
n|k)
,表示的是在收集到k量坦克資訊(僅知道收集了k輛坦克而不知其數字)的條件下對群體數n的先驗估計。假定其為某種離散均勻分布:p(
n|k)
=⎧⎩⎨
1ω−k
0if k ≤n
<
ωotherwise
所以,上式可化簡為:p(
n|m,
k)=⎧
⎩⎨⎪⎪
⎪⎪p(
m|n,
k)∑ω
−1n=
mp(m
|n,k
)0if m ≤n
<
ωotherwise
這樣便根據m,k的資訊求出了n的後驗概率分布。一些資訊如下:
wiki
tony blog
貝葉斯和頻率的哲思
貝葉斯學派的論點 頻率學派 貝葉斯學派 theta是乙個定值theta是乙個分布 樣本是隨機的,因此研究樣本的分布認為theta是隨機的,因而研究引數的分布 x1,x2 n theta,100 生成過程 在plsa中,我們假定文件是這樣生成的 你不停的重複扔 文件 主題 骰子和 主題 詞項 骰子 重...
頻率派與貝葉斯派的爭論
頻率學派認為世界是確定的,有乙個本體,這個本體的真值是不變的,我們的目標就是要找到這個真值或真值所在的範圍。頻率學派 存在唯一真值 當資料量趨於無窮時,這種方法能給出精準的估計 然而缺乏資料時則可能產生嚴重的偏差。貝葉斯學派認為世界是不確定的,人們對世界先有乙個預判,而後通過觀測資料對這個預判做調整...
貝葉斯的理解
用概率思考人生 問題 事件a發生後事件b發生的概率與事件b發生後事件a發生的概率這兩者有什麼關係 呢?這兩者之間存在確定的關係,貝葉斯公式描述的這是這兩者之間的確定關係 公式如下 p a b p ab p b p b a p a p b p b a p ab p a p a b p b p a 當p...