最大似然估計(MLE)和最大後驗概率估計(MAP)

2021-09-29 10:31:40 字數 2844 閱讀 7195

最大似然估計(mle)和最大後驗概率估計(map)是很常用的兩種引數估計方法。下文將詳細說明mle和map的思路與區別。

但別急,我們先從概率和統計的區別講起。

一、概率和統計是乙個東西嗎?

概率(probabilty)和統計(statistics)看似兩個相近的概念,其實研究的問題剛好相反。

概率研究的問題是,已知乙個模型和引數,怎麼去**這個模型產生的結果的特性(例如均值,方差,協方差等等)。 舉個例子,我想研究怎麼養豬(模型是豬),我選好了想養的品種、餵養方式、豬棚的設計等等(選擇引數),我想知道我養出來的豬大概能有多肥,肉質怎麼樣(**結果)。

統計研究的問題則相反。統計是,有一堆資料,要利用這堆資料去**模型和引數。仍以豬為例。現在我買到了一堆肉,通過觀察和判斷,我確定這是豬肉(這就確定了模型。在實際研究中,也是通過觀察資料推測模型是/像高斯分布的、指數分布的、拉普拉斯分布的等等),然後,可以進一步研究,判定這豬的品種、這是圈養豬還是跑山豬還是網易豬,等等(推測模型引數)。

一句話總結:概率是已知模型和引數,推資料。統計是已知資料,推模型和引數。

二、最大似然估計(mle)

假設有乙個造幣廠生產某種硬幣,現在我們拿到了一枚這種硬幣,想試試這硬幣是不是均勻的。即想知道拋這枚硬幣,正反面出現的概率(記為θ)各是多少?

這是乙個統計問題,回想一下,解決統計問題需要什麼? 資料!

於是我們拿這枚硬幣拋了10次,得到的資料(x0x0)是:反正正正正反正正正反。我們想求的正面概率θθ是模型引數,而拋硬幣模型我們可以假設是 二項分布。

那麼,出現實驗結果x

0x_0

x0​(即反正正正正反正正正反)的似然函式是多少呢?

f(x

0x_0

x0​,θ)=(1−θ)×θ×θ×θ×θ×(1−θ)×θ×θ×θ×(1−θ)=θ

7θ^7

θ7( (1

−θ)3

((1−θ)^3

((1−θ)

3=f(θ)

這是個只關於θ的函式。而最大似然估計,就是要最大化這個函式。我們可以畫出f(θ)的影象:

可以看出,在θ=0.7時,似然函式取得最大值。

這樣,我們已經完成了對θ的最大似然估計。即拋10次硬幣,發現7次硬幣正面向上,最大似然估計認為正面向上的概率是0.7。

且慢,一些人可能會說,硬幣一般都是均勻的啊! 就算你做實驗發現結果是「反正正正正反正正正反」,我也不信θ=0.7。

這裡就包含了貝葉斯學派的思想了——要考慮先驗概率。 為此,引入了最大後驗概率估計。

三、最大後驗概率估計

最大似然估計是求引數θ, 使似然函式px

0x_0

x0​|θ)最大。最大後驗概率估計則是想求θθ使p(x

0x_0

x0​|θ)p(θ最大。求得的θ不單單讓似然函式大,θ自己出現的先驗概率也得大。

map其實是在最大化p(θ|x

0x_0

x0​)=p(x

0x_0

x0​|θ)p(θ),不過因為x

0x_0

x0​是確定的(即投出的「反正正正正反正正正反」),p(x

0x_0

x0​)是乙個已知值,所以去掉了分母p(x

0x_0

x0​)(假設「投10次硬幣」是一次實驗,實驗做了1000次,「反正正正正反正正正反」出現了n次,則p(x

0x_0

x0​)=n/1000。總之,這是乙個可以由資料集得到的值)。最大化p(θ|x

0x_0

x0​)的意義很明確,x

0x_0

x0​已經出現了,要求θ取什麼值使p(θ|x

0x_0

x0​)最大。

對於投硬幣的例子來看,我們認為(」先驗地知道「)θ取0.5的概率很大,取其他值的概率小一些。我們用乙個正態分佈來具體描述我們掌握的這個先驗知識,例如假設p(θ)為均值0.5,方差0.1的高斯函式,如下圖:

x0​|θ)p(θ))的函式影象為:

注意,此時函式取最大值時,θ取值已向左偏移,不再是0.7。實際上,在θ=0.558時函式取得了最大值。即用最大後驗概率估計,得到θ=0.558

最後,那要怎樣才能說服乙個貝葉斯派相信θ=0.7呢?你得多做點實驗。

如果做了1000次實驗,其中700次都是正面向上,這時似然函式為:

如果仍然假設p(θ)為均值0.5,方差0.1的高斯函式,p(x

0x_0

x0​|θ)p(θ)的函式影象為:

在θ=0.696處,p(x

0x_0

x0​|θ)p(θ)取得最大值。

這樣,就算乙個考慮了先驗概率的貝葉斯派,也不得不承認得把θ估計在0.7附近了。

四、最大似然估計和最大後驗概率估計的區別

map就是多個作為因子的先驗概率p(θ)。或者,也可以反過來,認為mle是把先驗概率p(θ)認為等於1,即認為θ是均勻分布。

最大似然估計 MLE 和最大後驗 MAP

頻率學派 貝葉斯學派x表示某乙個具體的資料 theta 表示模型的引數。如果 是已知確定的,是變數,這個函式叫做概率函式 probability function 它描述對於不同的樣本點x,其出現概率是多少。如果x xx是已知確定的,是變數,這個函式叫做似然函式 likelihood functio...

最大似然估計 MLE 與最大後驗估計 MAP

對於函式p x 從不同的觀測角度來看可以分為以下兩種情況 如果 已知且保持不變,x是變數,則p x 稱為概率函式,表示不同x出現的概率。如果x已知且保持不變,是變數,則p x 稱為似然函式,表示不同 下,x出現的概率,也記作l x 或l x 或f x 最大似然估計是已知模型服從某種分布,但不知道其某...

最大似然估計MLE和最大後驗估計MAP理解

1 頻率學派和貝葉斯派 頻率學派認為引數是固定而未知的,關心似然函式。貝葉斯派認為引數是隨機的有分布的,關心後驗分布。2 mle map公式 3 引數估計 mle 4 引數估計 map map與mle最大的不同在於p 引數 項,map將先驗知識加入,優化損失函式。5 mle map bayesian...