最大似然估計 最大似然估計與最大後驗估計聯絡

2021-10-12 18:23:09 字數 1332 閱讀 7669

引數估計的目的是決定變數之間相互關聯的量化關係。

常用的引數估計方法包括最大似然估計法、最大後驗估計、期望最大化法 (em) 和貝葉斯估計方法

在觀測資料前,我們將 θ 的已知知識表示成先驗概率分布,p(θ) 我們通常稱為先驗。

一般而言,在機器學習實踐的時候,會選擇乙個相當寬泛的先驗分布(這個先驗分布通常是高熵的分布,比如均勻分布), 以觀測到任何資料前引數 θ 的高度不確定性。

假設我們有一組資料樣本 x(1), ..., x(m), 通過貝葉斯公式,用資料似然分布 p(x(1), ..., x(m)|θ) 和先驗分布,這樣就可以計算對 θ 的後驗概率的計算:

在貝葉斯估計常見的情景下,先驗分布開始是相對均勻的分布或高熵的高斯分布,觀測資料通常會使後驗的熵下降,並集中在引數的幾個可能性很高的值。

簡單地把兩者聯絡起來:假設先驗分布是均勻分布,取後驗概率最大,就能從貝葉斯估計得到極大似然估計。

這裡偷了懶,直接把李航書中的圖,拍照拿過來了,這裡面的d指的就是已知資料x。這張圖可以很好的解釋最大似然估計與貝葉斯估計的區別。

最大似然估計方法**時,使用 θ 的點估計;而貝葉斯估計使用 θ 的全分布。簡單的說,貝葉斯方法估計是一種引數的區間估計,即引數在乙個區間上的估計。

不像似然函式中 θ 只有乙個值,貝葉斯估計 θ 有很多值,貝葉斯估計中不同的 θ 就會有很多的 p(x(m+1)|θ),要確定乙個 x 值,需要消除掉不確定的θ 對 x 的影響。

根據前面 m 個樣本**下乙個值,就可以用 θ 的後驗概率加權,對所有 p(x(m+1)|θ) 求平均,就可以消除掉不確定的 θ 對 x(m+1) 的影響。

當訓練資料很有限時,貝葉斯估計通常泛化得更好,但是當訓練樣本數目很大時,通常會有很大的計算代價。

我們說貝葉斯估計是一種引數的區間估計,即引數在乙個區間上的分布。如果希望得到乙個最優的引數值(即點估計),可以使用最大後驗估計。

最大後驗估計是指最優引數為後驗分布 p(θ|x) 中概率密度最高的引數:

右邊 log p(x|θ) 對應著標準的對數似然項,log p(θ) 對應著先驗分布。

貝葉斯估計是引數的一種區間估計,缺點是大多數情況下貝葉斯後驗的計算是非常棘手的,我們可以最大化貝葉斯後驗概率得到點估計。

這樣的話,不僅可以減少計算量,而且可以利用貝葉斯估計使用先驗的資訊的優點,這些先驗知識不能從訓練資料中得到,而不是簡單地回到最大似然估計。

最大似然估計 極大似然估計

目錄最大似然估計 個人部落格 對於最大似然估計我們使用最簡單的拋硬幣問題來進行講解當我們拋一枚硬幣的時候,就可以去猜測拋硬幣的各種情況的可能性,這個可能性就稱為概率一枚質地均勻的硬幣,在不考慮其他情況下是符合二項分布的,即正面和翻面的概率都是0.5,那麼我們拋10次硬幣5次正面在上面的概率為 但是現...

最大似然估計

利用已知的樣本結果,反推最有可能 最大概率 導致這樣結果的引數值 例如 乙個麻袋裡有白球與黑球,但是我不知道它們之間的比例,那我就有放回的抽取10次,結果我發現我抽到了8次黑球2次白球,我要求最有可能的黑白球之間的比例時,就採取最大似然估計法 我假設我抽到黑球的概率為p,那得出8次黑球2次白球這個結...

最大似然估計

最大似然估計 mle mle求解過程 mle maximum likelihood estimation 就是利用已知的樣本結果,反推最有可能 最大概率 導致這樣結果的引數值的計算過程。直白來講,就是給定了一定的資料,假定知道資料是從某種分布中隨機抽取出來的,但是不知道這個分布具體的引數值,即 模型...