極大似然估計
極大似然估計的基本想法是:
我們所看到的,就是最可能發生的。
所以通過最大化實驗資料發生的概率 p
(x|θ
) (其中引數 θ
是未知的),取極值時對應的 θ
^ 即為最大似然估計。
貝葉斯估計p
(θ|x
)=p(
x|θ)
p(θ)
∑ θ
p(x|
θ)p(
θ)
θ表示乙個事件發生的
概率,例如扔乙個硬幣的結果正面朝上的概率,這個
概率θ
是乙個隨機變數, p
(θ)
為 θ的先驗分布,「先」表示在實驗之前,先驗是指獲得資料之前對於事件發生概率 θ
的預估,實際上就是預先假定的 θ
的乙個概率分布;x
表示實驗資料。
理解的關鍵在於把事件發生的概率θ
看作乙個隨機變數,
不妨假設 θ
取值空間為 θ
i ,1
≤i≤n
,其中 ∑
ni=1
θi =1
,將上面的公式寫得更加容易理解一點如下:p(
θ=θi
|x)=p(x
|θ=θ
i )p(θ=
θ i
)∑ n
i=1
p(x|
θ=θ
i )p
(θ=θ
i ),1≤i
≤n
在實驗之後,利用實驗資料對 θ
的概率分布進行校正,即得到 θ
的後驗分布,然後求期望,最終得到貝葉斯估計θ^
=∑ni
=1 θ
i p(
θ=θi
|x)一般地,對於連續隨機變數 θ
, θ的貝葉斯估計為: θ
^=∫θ
p(θ|
x)dθ
下面考慮乙個簡單的例子:
一枚硬幣,拋擲出現正面的概率為 p,出現反面的概率為 1-p,但是引數 p 未知。
為了估計引數 p 的取值,進行 10 次隨機試驗,出現了 3 次正面, 7 次反面。
現在我們已經獲取了實驗資料,問題是如何才能通過實驗資料估計出引數 p 呢?
極大似然估計: 引數
θ在該問題中指的是正面出現的概率p,實驗資料指的是在10次實驗中出現3次正面,7次反面。
如果實驗中出現h次正面,t次反面,則該實驗結果出現的頻率為(假設正反面出現的次序確定): p
(x|θ
)=ph
(1−p)t
第二步,極大化上面的式子即可得到p的貝葉斯估計。由於極大化 p
(x|θ
) 等價於極大化
log[p
(x|θ
)],所以可以通過求解
log[p
(x|θ
)]的最大值簡化求解過程
log[p
(x|θ
)]=h
log[p]
−tlog[1−
p]極值條件為 ∂
log[p(
x|θ)
]∂p
=0∂log[p
(x|θ
)]∂p
=h p −t
1−p=0
求解上式可以得到 p
^=h
h+t
這就是硬幣正面出現概率的極大似然估計。將具體的實驗結果代入以上公式計算這枚硬幣出現的概率為 p=3/10。
可能有人會想,為啥要搞的這麼麻煩,
p^=h h
+t是多麼的直白明了,即使不使用極大似然的方法仍然能夠寫出
p^=h h
+t。對於硬幣的問題,我們的確可以更快捷的憑藉直覺給出引數 p 的估計,那是因為引數 p 有明確的含義,p 表示概率,我們很容易想到使用頻率來估計概率。但是有的問題中引數
θ 沒有明確的含義,我們就很難通過直覺來得到引數
θ 的估計量
θ 。簡單來說我們的直覺能夠在待估引數有明確含義的時候提供便捷,但是當待估引數沒有明確含義的時候我們的直覺只能靠邊站,事情交由極大似然估計來解決。
貝葉斯估計
下面我們考慮利用貝葉斯估計來解決這個問題。
還是回到硬幣的問題,我們通過極大似然估計得到硬幣出現正面的概率是 3/10,但是生活經驗告訴我們硬幣正反面出現的概率相等都是 1/2。到底我們應該相信那個結果呢?一種好的方法就是將生活經驗和實驗資料兩個因素綜合在一起考慮,貝葉斯估計很好的做到了這一點。
貝葉斯估計可以分為三個步驟來實現。第一步確定先驗,第二步寫出似然函式並計算後驗,第三步根據後驗計算貝葉斯估計。下面通過硬幣的例子來說明貝葉斯估計的實現步驟。
第一步確定先驗,我們使用的先驗分布是
p∼beta
(α,b
eta),be
ta(α
,β)
具體是這個樣子
f(p;α,
β)=γ
(α+β
)γ(α
)γ(β
) pα
−1 (
1−p)
β−1
beta(α
,β)
的含義是實驗之前已經進行了
α+β 次扔硬幣的實驗,出現了
α 次正面和
β 次反面。
第二步寫出似然函式,並計算後驗。
p(θ|x)
∝p(x
|θ)p
(θ)
p(x|θ)
p(θ)
=ph
(1−p
)t γ
(α+β
)γ(α
)γ(β
) pα
−1 (
1−p)
β−1
新增歸一化係數(保證
∫ θ p(
x|θ)
p(θ)
=1)之後可以得到
p(θ|x)
=ph
(1−p
)t γ
(α+β
+h+t
)γ(α
+h)γ
(β+t
) pα
+h−1
(1−p)β+
t−1 即p(
θ|x)
∼bet
a(α+
h,β+
t)故可得
p^=α+h
α+β+
h+t
代入具體的資料,
α=200,β=
200,h=
3,t=
7 計算可得
p^=α+h
α+β+
h+t
=203
410 =
0.495
我們的先驗知識對結果產生了很大的影響,不新增先驗時極大似然估計的結果是 p=3/10,新增先驗之後,較少的實驗資料只對先驗做出微小的調整,貝葉斯估計的結果是
bayes 貝葉斯估計與最大似然估計
參考 設資料為d,變數為x,決定概率分布的引數為 似然函式 p d 後驗概率分布 p d p d p constant 1.用mle方法只能估計出使得似然函式最大時的 值,而基於bayes的後驗概率法則可以求出 的後驗概率分布。若需要求得最優的 則可以用map來獲得。2.mle求出最優的引數 後帶回...
極大似然估計與貝葉斯估計
貝葉斯估計與極大似然估計在思想上有很大的不同,代表著統計學中貝葉斯學派和頻率學派對統計的不同認識。極大似然估計是頻率學派觀點,它的觀點可以這樣理解 待估計引數 theta 是客觀存在的,只是未知而已,已知觀測樣本 d dd,求得 hat 使得在 theta hat 時,產生觀測樣本資料 d dd 的...
最大似然估計與貝葉斯估計的區別
舉個很簡單的實際例子,我們國家每隔一段時間需要進行人口普查,但是因為我國國土面積太大,人口太多,不太可能真正挨個人口進行統計,所以可以統計部分人口樣本,然後根據這部分樣本的引數去描述人口的總體分布情況。那為什麼我們可以這麼幹?因為我們對整體分布的形式是知曉的,比如我們知道全國人民的身高體重服從正態分...