最大似然估計(mle)和最大後驗概率估計(map)是很常用的兩種引數估計方法。下文將詳細說明mle和map的思路與區別。
但別急,我們先從概率和統計的區別講起。
一、概率和統計是乙個東西嗎?
概率(probabilty)和統計(statistics)看似兩個相近的概念,其實研究的問題剛好相反。
概率研究的問題是,已知乙個模型和引數,怎麼去**這個模型產生的結果的特性(例如均值,方差,協方差等等)。 舉個例子,我想研究怎麼養豬(模型是豬),我選好了想養的品種、餵養方式、豬棚的設計等等(選擇引數),我想知道我養出來的豬大概能有多肥,肉質怎麼樣(**結果)。
統計研究的問題則相反。統計是,有一堆資料,要利用這堆資料去**模型和引數。仍以豬為例。現在我買到了一堆肉,通過觀察和判斷,我確定這是豬肉(這就確定了模型。在實際研究中,也是通過觀察資料推測模型是/像高斯分布的、指數分布的、拉普拉斯分布的等等),然後,可以進一步研究,判定這豬的品種、這是圈養豬還是跑山豬還是網易豬,等等(推測模型引數)。
一句話總結:概率是已知模型和引數,推資料。統計是已知資料,推模型和引數。
二、最大似然估計(mle)
假設有乙個造幣廠生產某種硬幣,現在我們拿到了一枚這種硬幣,想試試這硬幣是不是均勻的。即想知道拋這枚硬幣,正反面出現的概率(記為θ)各是多少?
這是乙個統計問題,回想一下,解決統計問題需要什麼? 資料!
於是我們拿這枚硬幣拋了10次,得到的資料(x0x0)是:反正正正正反正正正反。我們想求的正面概率θθ是模型引數,而拋硬幣模型我們可以假設是 二項分布。
那麼,出現實驗結果x
0x_0
x0(即反正正正正反正正正反)的似然函式是多少呢?
f(x
0x_0
x0,θ)=(1−θ)×θ×θ×θ×θ×(1−θ)×θ×θ×θ×(1−θ)=θ
7θ^7
θ7( (1
−θ)3
((1−θ)^3
((1−θ)
3=f(θ)
這是個只關於θ的函式。而最大似然估計,就是要最大化這個函式。我們可以畫出f(θ)的影象:
可以看出,在θ=0.7時,似然函式取得最大值。
這樣,我們已經完成了對θ的最大似然估計。即拋10次硬幣,發現7次硬幣正面向上,最大似然估計認為正面向上的概率是0.7。
且慢,一些人可能會說,硬幣一般都是均勻的啊! 就算你做實驗發現結果是「反正正正正反正正正反」,我也不信θ=0.7。
這裡就包含了貝葉斯學派的思想了——要考慮先驗概率。 為此,引入了最大後驗概率估計。
三、最大後驗概率估計
最大似然估計是求引數θ, 使似然函式px
0x_0
x0|θ)最大。最大後驗概率估計則是想求θθ使p(x
0x_0
x0|θ)p(θ最大。求得的θ不單單讓似然函式大,θ自己出現的先驗概率也得大。
map其實是在最大化p(θ|x
0x_0
x0)=p(x
0x_0
x0|θ)p(θ),不過因為x
0x_0
x0是確定的(即投出的「反正正正正反正正正反」),p(x
0x_0
x0)是乙個已知值,所以去掉了分母p(x
0x_0
x0)(假設「投10次硬幣」是一次實驗,實驗做了1000次,「反正正正正反正正正反」出現了n次,則p(x
0x_0
x0)=n/1000。總之,這是乙個可以由資料集得到的值)。最大化p(θ|x
0x_0
x0)的意義很明確,x
0x_0
x0已經出現了,要求θ取什麼值使p(θ|x
0x_0
x0)最大。
對於投硬幣的例子來看,我們認為(」先驗地知道「)θ取0.5的概率很大,取其他值的概率小一些。我們用乙個正態分佈來具體描述我們掌握的這個先驗知識,例如假設p(θ)為均值0.5,方差0.1的高斯函式,如下圖:
x0|θ)p(θ))的函式影象為:
注意,此時函式取最大值時,θ取值已向左偏移,不再是0.7。實際上,在θ=0.558時函式取得了最大值。即用最大後驗概率估計,得到θ=0.558
最後,那要怎樣才能說服乙個貝葉斯派相信θ=0.7呢?你得多做點實驗。
如果做了1000次實驗,其中700次都是正面向上,這時似然函式為:
如果仍然假設p(θ)為均值0.5,方差0.1的高斯函式,p(x
0x_0
x0|θ)p(θ)的函式影象為:
在θ=0.696處,p(x
0x_0
x0|θ)p(θ)取得最大值。
這樣,就算乙個考慮了先驗概率的貝葉斯派,也不得不承認得把θ估計在0.7附近了。
四、最大似然估計和最大後驗概率估計的區別
map就是多個作為因子的先驗概率p(θ)。或者,也可以反過來,認為mle是把先驗概率p(θ)認為等於1,即認為θ是均勻分布。
最大似然估計 MLE 和最大後驗 MAP
頻率學派 貝葉斯學派x表示某乙個具體的資料 theta 表示模型的引數。如果 是已知確定的,是變數,這個函式叫做概率函式 probability function 它描述對於不同的樣本點x,其出現概率是多少。如果x xx是已知確定的,是變數,這個函式叫做似然函式 likelihood functio...
最大似然估計 MLE 與最大後驗估計 MAP
對於函式p x 從不同的觀測角度來看可以分為以下兩種情況 如果 已知且保持不變,x是變數,則p x 稱為概率函式,表示不同x出現的概率。如果x已知且保持不變,是變數,則p x 稱為似然函式,表示不同 下,x出現的概率,也記作l x 或l x 或f x 最大似然估計是已知模型服從某種分布,但不知道其某...
最大似然估計MLE和最大後驗估計MAP理解
1 頻率學派和貝葉斯派 頻率學派認為引數是固定而未知的,關心似然函式。貝葉斯派認為引數是隨機的有分布的,關心後驗分布。2 mle map公式 3 引數估計 mle 4 引數估計 map map與mle最大的不同在於p 引數 項,map將先驗知識加入,優化損失函式。5 mle map bayesian...