貝葉斯估計與最大似然估計

2021-06-14 03:37:13 字數 3623 閱讀 5025

極大似然估計

極大似然估計的基本想法是:

我們所看到的,就是最可能發生的

所以通過最大化實驗資料發生的概率 p

(x|θ

) (其中引數 θ

是未知的),取極值時對應的 θ

^ 即為最大似然估計。

貝葉斯估計p

(θ|x

)=p(

x|θ)

p(θ)

∑ θ 

p(x|

θ)p(

θ) 

θ表示乙個事件發生的

概率,例如扔乙個硬幣的結果正面朝上的概率,這個

概率θ 

是乙個隨機變數, p

(θ) 

為 θ的先驗分布,「先」表示在實驗之前,先驗是指獲得資料之前對於事件發生概率 θ

的預估,實際上就是預先假定的 θ

的乙個概率分布;x 

表示實驗資料。

理解的關鍵在於把事件發生的概率θ 

看作乙個隨機變數,

不妨假設 θ

取值空間為 θ

i ,1

≤i≤n

,其中 ∑

ni=1

θi =1

,將上面的公式寫得更加容易理解一點如下:p(

θ=θi

|x)=p(x

|θ=θ

i )p(θ=

θ i 

)∑ n

i=1 

p(x|

θ=θ 

i )p

(θ=θ

i ),1≤i

≤n

在實驗之後,利用實驗資料對 θ

的概率分布進行校正,即得到 θ

的後驗分布,然後求期望,最終得到貝葉斯估計θ^

=∑ni

=1 θ

i p(

θ=θi

|x)一般地,對於連續隨機變數 θ

, θ的貝葉斯估計為: θ

^=∫θ

p(θ|

x)dθ

下面考慮乙個簡單的例子:

一枚硬幣,拋擲出現正面的概率為 p,出現反面的概率為 1-p,但是引數 p 未知。

為了估計引數 p 的取值,進行 10 次隨機試驗,出現了 3 次正面, 7 次反面。

現在我們已經獲取了實驗資料,問題是如何才能通過實驗資料估計出引數 p 呢?

極大似然估計: 引數

θ在該問題中指的是正面出現的概率p,實驗資料指的是在10次實驗中出現3次正面,7次反面。

如果實驗中出現h次正面,t次反面,則該實驗結果出現的頻率為(假設正反面出現的次序確定): p

(x|θ

)=ph

(1−p)t 

第二步,極大化上面的式子即可得到p的貝葉斯估計。由於極大化 p

(x|θ

) 等價於極大化

log[p

(x|θ

)],所以可以通過求解

log[p

(x|θ

)]的最大值簡化求解過程

log[p

(x|θ

)]=h

log[p]

−tlog[1−

p]極值條件為 ∂

log[p(

x|θ)

]∂p 

=0∂log[p

(x|θ

)]∂p

=h p −t

1−p=0

求解上式可以得到 p

^=h 

h+t

這就是硬幣正面出現概率的極大似然估計。將具體的實驗結果代入以上公式計算這枚硬幣出現的概率為 p=3/10。

可能有人會想,為啥要搞的這麼麻煩,

p^=h h

+t是多麼的直白明了,即使不使用極大似然的方法仍然能夠寫出

p^=h h

+t。對於硬幣的問題,我們的確可以更快捷的憑藉直覺給出引數 p 的估計,那是因為引數 p 有明確的含義,p 表示概率,我們很容易想到使用頻率來估計概率。但是有的問題中引數

θ 沒有明確的含義,我們就很難通過直覺來得到引數

θ 的估計量

θ 。簡單來說我們的直覺能夠在待估引數有明確含義的時候提供便捷,但是當待估引數沒有明確含義的時候我們的直覺只能靠邊站,事情交由極大似然估計來解決。

貝葉斯估計

下面我們考慮利用貝葉斯估計來解決這個問題。

還是回到硬幣的問題,我們通過極大似然估計得到硬幣出現正面的概率是 3/10,但是生活經驗告訴我們硬幣正反面出現的概率相等都是 1/2。到底我們應該相信那個結果呢?一種好的方法就是將生活經驗和實驗資料兩個因素綜合在一起考慮,貝葉斯估計很好的做到了這一點。

貝葉斯估計可以分為三個步驟來實現。第一步確定先驗,第二步寫出似然函式並計算後驗,第三步根據後驗計算貝葉斯估計。下面通過硬幣的例子來說明貝葉斯估計的實現步驟。

第一步確定先驗,我們使用的先驗分布是

p∼beta

(α,b

eta),be

ta(α

,β) 

具體是這個樣子

f(p;α,

β)=γ

(α+β

)γ(α

)γ(β

) pα

−1 (

1−p)

β−1

beta(α

,β) 

的含義是實驗之前已經進行了

α+β 次扔硬幣的實驗,出現了

α 次正面和

β 次反面。

第二步寫出似然函式,並計算後驗。

p(θ|x)

∝p(x

|θ)p

(θ) 

p(x|θ)

p(θ)

=ph 

(1−p

)t γ

(α+β

)γ(α

)γ(β

) pα

−1 (

1−p)

β−1

新增歸一化係數(保證

∫ θ p(

x|θ)

p(θ)

=1)之後可以得到

p(θ|x)

=ph 

(1−p

)t γ

(α+β

+h+t

)γ(α

+h)γ

(β+t

) pα

+h−1

(1−p)β+

t−1 即p(

θ|x)

∼bet

a(α+

h,β+

t)故可得

p^=α+h

α+β+

h+t 

代入具體的資料,

α=200,β=

200,h=

3,t=

7 計算可得

p^=α+h

α+β+

h+t 

=203

410 =

0.495

我們的先驗知識對結果產生了很大的影響,不新增先驗時極大似然估計的結果是 p=3/10,新增先驗之後,較少的實驗資料只對先驗做出微小的調整,貝葉斯估計的結果是

bayes 貝葉斯估計與最大似然估計

參考 設資料為d,變數為x,決定概率分布的引數為 似然函式 p d 後驗概率分布 p d p d p constant 1.用mle方法只能估計出使得似然函式最大時的 值,而基於bayes的後驗概率法則可以求出 的後驗概率分布。若需要求得最優的 則可以用map來獲得。2.mle求出最優的引數 後帶回...

極大似然估計與貝葉斯估計

貝葉斯估計與極大似然估計在思想上有很大的不同,代表著統計學中貝葉斯學派和頻率學派對統計的不同認識。極大似然估計是頻率學派觀點,它的觀點可以這樣理解 待估計引數 theta 是客觀存在的,只是未知而已,已知觀測樣本 d dd,求得 hat 使得在 theta hat 時,產生觀測樣本資料 d dd 的...

最大似然估計與貝葉斯估計的區別

舉個很簡單的實際例子,我們國家每隔一段時間需要進行人口普查,但是因為我國國土面積太大,人口太多,不太可能真正挨個人口進行統計,所以可以統計部分人口樣本,然後根據這部分樣本的引數去描述人口的總體分布情況。那為什麼我們可以這麼幹?因為我們對整體分布的形式是知曉的,比如我們知道全國人民的身高體重服從正態分...