0.相關概念
資料:x
引數:theta
假設概率模型為:x~p(x|theta) 【xi服從於p(x|theta),並且是獨立同分布(iid)】
明確先驗、後驗和似然的概念:
似然(likelihood/evidence):p(x|theta)【有看到別的地方的evidence指的是所有樣本x的總和】
先驗(prior):p(theta):(隨機變數)引數theta所服從的分布
後驗(posterior):p(theta|x):
問題:引數估計問題,也就是求theta的值。
關於這個問題頻率派常用最大似然估計方法(mle),貝葉斯派常用最大後驗估計方法(map)。
1.頻率派的特點是將theta作為常量;x作為隨機變數。常用最大似然估計(mle)進行引數估計。mle步驟為:
①首先搭建模型,
②然後將模型轉化為優化問題(有 loss function)
③然後用不同的優化演算法求解(比如梯度下降法,牛頓法等等)
代價函式為觀測集的概率
因為是獨立同分布,所以觀測集概率可表示為連乘:
最大對數似然估計(mle)方法求解theta:【加上log是為了將連乘轉化為,方便運算。通過求解最大似然估計得到theta的值】
2.貝葉斯派的特點是將theta作為隨機變數【theta~p(theta)】;x也作為隨機變數。常用最大後驗概率估計(map)進行引數估計。map步驟為:
①用貝葉斯定理將求解後驗概率轉化為求解似然和先驗的積分問題:【 貝葉斯定理是用似然和先驗求解後驗的過程。】
②最大後驗概率方法求解theta的值:
3.引申:
頻率派後續引出一系列統計機器學習的方法,主要步驟為搭建模型,構造損失函式(loss funcion),選取優化演算法進行優化,本質是優化問題。
貝葉斯派後續引出一些列概率圖模型,主要是用數值方法求積分,因為在引數空間中求積分,所以轉而尋找用概率圖求積分的方法,常用mcmc、蒙特卡洛等方法。
傳統貝葉斯估計需要求積分:
將後驗概率用於貝葉斯**:【通過theta將x_new和x解構】
最大似然估計,最大後驗估計
p a b 這個公式看下面韋恩圖就懂了 在事件 b 發生的條件下發生事件 a 的概率 p a b 就是 ab 同時發生的概率 p ab 比 b 發生的概率 p b p a b frac 形式上很明顯,這個公式是條件概率變形而來 p a b rightarrow p a b p b p ab p b ...
最大似然估計 最大似然估計與最大後驗估計聯絡
引數估計的目的是決定變數之間相互關聯的量化關係。常用的引數估計方法包括最大似然估計法 最大後驗估計 期望最大化法 em 和貝葉斯估計方法。在觀測資料前,我們將 的已知知識表示成先驗概率分布,p 我們通常稱為先驗。一般而言,在機器學習實踐的時候,會選擇乙個相當寬泛的先驗分布 這個先驗分布通常是高熵的分...
最大似然估計(MLE)和最大後驗概率估計(MAP)
最大似然估計 mle 和最大後驗概率估計 map 是很常用的兩種引數估計方法。下文將詳細說明mle和map的思路與區別。但別急,我們先從概率和統計的區別講起。一 概率和統計是乙個東西嗎?概率 probabilty 和統計 statistics 看似兩個相近的概念,其實研究的問題剛好相反。概率研究的問...