序言
θ,然後根據資料來求出這個θ
θ. 而貝葉斯估計的難點在於p(θ
)p(θ)
需要人為設定,之後再考慮結合map
map (maximum a posterior)方法來求乙個具體的θθ.
所以極大似然估計與貝葉斯估計最大的不同就在於是否考慮了先驗,而兩者適用範圍也變成了:極大似然估計適用於資料大量,估計的引數能夠較好的反映實際情況;而貝葉斯估計則在資料量較少或者比較稀疏的情況下,考慮先驗來提公升準確率。=d=
,當然這些資料肯定不是隨便產生的,我們就假設這些資料是以含有未知引數θ
θ 某種概率形式(如bernoulli分布即0-1分布)分布的。我們的任務就是通過已有的資料,來估計這個未知引數θ
θ。估計這個引數的好處就在於,我們可以對外來的資料進行**。
ρ,反面向上設為0為(1−
ρ)(1−ρ)
. 我們進行了3次實驗,得到兩次正面,一次反面,即序列為′1
10′′110′
。這裡,d=(
1,1,
0)d=(1,1,0),θ=
ρθ=ρ。含義
d已有的資料(data)θθ
要估計的引數(parameter)p(
θ)p(θ)
先驗概率(prior)p(
θ|d)
p(θ|d)
後驗概率(posterior)p(
d)p(d)
資料分布(evidence)p(
d|θ)
p(d|θ)
似然函式(likelihood of θ
θ w.r.t. dd)
p(x,
θ|d)
p(x,θ|d)
已知資料條件下的x,θ
x,θ概率
θ 時採用的不同態度。(θ
|d)p(θ|d)
最大的引數θ
θ,形式化表達為求解
maxθp(
θ|d)
(1)(1)argmaxθp(θ|d)(θ
|d)=
p(d|
θ)p(
θ)p(
d).(2)
(2)p(θ|d)=p(d|θ)p(θ)p(d).θ(
θ)p(θ)(d
)p(d)1)
(1)maxθp
(d|θ
)(3)
(3)argmaxθp(d|θ)3)
(3)(d|
θ)p(d|θ)=d=
(d|θ
)=∏i
=1np
(xi|
θ),(4)
(4)p(d|θ)=∏i=1np(xi|θ),=(
1,1,
0)d=(1,1,0)
, θ=ρ
θ=ρ 的話,我們可以得到 (d
|θ)=
p(x1
|ρ)p
(x2|
ρ)p(
x3|ρ
)=p(
1|ρ)
p(1|
ρ)p(
0|ρ)
=ρ∗ρ
∗(1−
ρ)(5)(5)p(d|θ)=p(x1|ρ)p(x2|ρ)p(x3|ρ)=p(1|ρ)p(1|ρ)p(0|ρ)=ρ∗ρ∗(1−ρ)ρθ
。後驗概率是指掌握了一定量的資料後我們的引數分布是怎麼樣的,表示為p(θ
|d)p(θ|d)
;那先驗就是在沒有掌握資料後我們的引數怎麼分布。2)
(2) 其實是乙個很概括的模型,既沒有對概率形式以及概率引數進行定義,也沒有運用到引數固定與否的思想,所以公式(2)
(2) 同樣適用於貝葉斯模型,我們仍然想對該式進行處理得出我們的貝葉斯估計方法。照抄下來(2)
(2) 式為 (θ
|d)=
p(d|
θ)p(
θ)p(
d).p(θ|d)=p(d|θ)p(θ)p(d).(θ
)p(θ)(d
)=∫θ
p(d|
θ)p(
θ)dθ
.(6)
(6)p(d)=∫θp(d|θ)p(θ)dθ.4)
(4)(d|
θ)=∏
i=1n
p(xi
|θ)p(d|θ)=∏i=1np(xi|θ)6)
(6)2
)(2)(θ
|d)=
(∏ni
=1p(
xi|θ
))p(
θ)∫θ
(∏ni
=1p(
xi|θ
))p(
θ)dθ
(7)(7)p(θ|d)=(∏i=1np(xi|θ))p(θ)∫θ(∏i=1np(xi|θ))p(θ)dθ7)
(7)式,其實這些符號我們都是知道的,我們就通過下面的例項來詳述。7)
(7)中的符號有先驗,根據之前對先驗的介紹,這是在沒有資料之前我們就已經知道的函式了。知道是什麼意思?不妨還是在那個拋硬幣試驗中,我們假設這個θ(ρ
)θ(ρ)
的先驗概率是服從 ρ(
ρ)=6
ρ(1−
ρ)(8)(8)fρ(ρ)=6ρ(1−ρ)∏n
i=1p
(xi|
θ))(∏i=1np(xi|θ))∗ρ
∗(1−
ρ)ρ∗ρ∗(1−ρ)(θ
|d)p(θ|d)
都找出來,而是仍然採用類似於極大似然估計的思想,來極大後驗概率(maximum a posterior),得到這種簡單有效的叫做map(前面英文的首字母)的演算法。下面我們再一步步介紹一下map。(θ
|d)p(θ|d)
。那麼這個後驗概率能用來做什麼呢?當然,就比如我們一直在說的那個例子,得到了資料d=(
110)
d=(110)
,還想**第四次得到的結果什麼是什麼怎麼辦?我們當然就需要計算p(1
|d)p(1|d)和p(
0|d)
p(0|d)
看看誰大誰小,哪個更有可能發生。這裡,為了泛化,我們將問題再次形式化一下為=(
x1,x
2,..
.,xn
)d=(x1,x2,...,xn)
,**新的資料x
x的值。
d的情況下,找到資料的數學期望
2。即求 (x
|d)=
∫xxp
(x|d
)dx.
(9)(9)e(x|d)=∫xxp(x|d)dx.(x
|d)p(x|d)θ(
x|d)
=∫θp
(x,θ
|d)d
θ(10)
(10)p(x|d)=∫θp(x,θ|d)dθ(x
,θ|d
)=p(
x|θ,
d)p(
θ|d)
.(11)
(11)p(x,θ|d)=p(x|θ,d)p(θ|d).xθ
dxθd
θd(x
|θ,d
)p(x|θ,d)(x
|θ,d
)=p(
x|θ)
p(x|θ,d)=p(x|θ)xθ
d10)(10)(x
|d)=
∫θp(
x,θ|
d)dθ
=∫θp
(x|θ
)p(θ
|d)d
θ.(12)
(12)p(x|d)=∫θp(x,θ|d)dθ=∫θp(x|θ)p(θ|d)dθ.(x
|θ)p(x|θ)(1
|ρ)p(1|ρ)
或者p(0|
ρ)p(0|ρ)(θ
|d)p(θ|d)7)
(7)x9)
(9)12
)(12)
式,這裡面的困難是引數是隨機分布的,我們需要考慮到每乙個可能的引數情況然後積分,這種數學上的簡單形式,其實想要計算出來需要大量的運算。那我們不妨退而求其次,我找乙個跟你差不多效果的後驗概率,然後就只計算這個後驗帶入計算。那麼什麼樣的後驗概率和對所有可能的θ
θ積分情況差不多呢?想法就是,找乙個θ
θ能夠最大化後驗概率,怎麼才能最大化後驗概率呢?7)
(7)式,對(7)式觀察發現,其實分母只是乙個歸一化的因子,並不是θ
θ的函式。真正有效的其實就是要最大化我們的分子,於是使用 ma
p=argmaxθ∏
i=1n
p(xi
|θ)p
(θ)(13)
(13)θmap=argmaxθ∏i=1np(xi|θ)p(θ)3)
(3),(13)
(13)式。↩
andrew』s notes (note5)
↩pattern recognition and machine learning
↩
極大似然估計和貝葉斯估計
假設 存在乙個先驗分布g 那麼 的後驗分布為 f x g f x g d 最大後驗概率估計 即為 後驗概率分布的眾數 m ap x ar gmax f x g 可以看做正則化的最大似然估計,當g是常數時兩者等價 極大似然估計和貝葉斯估計分別代表了頻率派和貝葉斯派的觀點。頻率派認為,引數是客觀存在的,...
極大似然估計與貝葉斯估計
貝葉斯估計與極大似然估計在思想上有很大的不同,代表著統計學中貝葉斯學派和頻率學派對統計的不同認識。極大似然估計是頻率學派觀點,它的觀點可以這樣理解 待估計引數 theta 是客觀存在的,只是未知而已,已知觀測樣本 d dd,求得 hat 使得在 theta hat 時,產生觀測樣本資料 d dd 的...
7 極大似然估計與貝葉斯估計
對於乙個正態總體 n mu,sigma 2 若其中兩個引數未知,而我們卻擁有一組資料的觀測值,我們設 mu theta 1,sigma 2 theta 2 由一元正態分佈的概率密度函式我們容易得出此式 f x theta 1,theta 2 sqrt exp left x theta 1 2 rig...