2019 july 04
em演算法
em 演算法精髓
em 演算法是通過不斷求解下界得極大化逼近對數似然函式極大化得演算法。
構造下界函式(jessen 不等式),通過巧妙地取 q 的值而保證在引數的當前迭代點處下界函式與要求解的目標函式數值相等(jessen 不等式取等號),從而保證優化下界函式後在新的迭代處目標函式是上公升的。
完全資料的對數似然函式 $\log p \left( y, z \mid \theta \right)$ 關於給定觀測資料 $y$ 的當前引數 $\theta^$ 下對未觀測資料 $z$的條件概率分布 $p \left( z \mid y,\theta^ \right)$ 的期望,即
對於乙個含有隱變數的概率模型,目標是極大化觀測模型資料(不完全資料)$y$ 關於引數 $\theta$ 的對數似然函式,即極大化似然函式
對於目標函式,若直接通過導數求解,對數內含有求和項,難以求解。若使用梯度下降法或牛頓法求解,則需保證隱變數滿足等式 $\sum _ p \left( z \right) = 1$ 和不等式 $p \left( z \right) \geq 0$,同樣難以求解。
em 演算法通過迭代逐步近似極大化 $l \left( \theta \right)$。假設在第 $i$ 次迭代後 $\theta$ 的估計值是 $\theta^$。我們希望新估計值 $\theta$ 能使 $l \left( \theta \right)$ 增加,即 $l \left( \theta \right) > l \left( \theta^ \right) $,並逐步達到極大值。
說明令
由 (9.1)和(9.6)得 $l \left( \theta \right) \geq b \left( \theta,\theta^ \right)$ 即函式 $b \left( \theta,\theta^ \right)$ 是 $l \left( \theta \right)$ 的乙個下界,且 $b \left( \theta^,\theta^ \right) = l \left( \theta \right)$。因此,任何可以使 $b \left( \theta,\theta^ \right)$ 增大的 $\theta$,也可以使 $l \left( \theta \right)$ 增大。
為了使 $l \left( \theta \right)$ 有盡可能大的增長,選擇 $\theta^$ 使 $b \left( \theta,\theta^ \right)$ 達到極大,即
即 $\quad b \left( \theta,\theta^ \right) = q \left( \theta,\theta^ \right) $。
式(9.8)等價於 em 演算法得一次迭代,即求 $q$ 函式及其極大值。
似然函式 $l \left( \theta \right)$ 與下界 $b \left( \theta,\theta^ \right)$ 即 $q \left( \theta,\theta^ \right)$,在 $\theta^$ 處相等,$b \left( \theta,\theta^ \right)$ 在 $\theta^$ 處取極大值。似然函式 $l \left( \theta \right)$ 下乙個迭代的點為 $\theta^$。
輸入:觀測變數資料 $y$,隱變數資料 $z$,聯合分布 $p \left( y, z \mid \theta \right)$,條件分布 $p \left( z \mid y, \theta \right)$;
輸出:引數模型 $\theta$。
選擇引數的初值 $\theta^$,開始迭代
e 步:記 $\theta^$ 為第 $i$ 次迭代引數 $\theta$ 的估計值,在第 $i+1$ 次迭代的 $e$ 步,確定 q 函式
m 步:求使 $q \left(\theta, \theta^ \right)$ 最大化的 $\theta$,確定第 $i+1$ 次迭代的引數估計值
統計學習方法 第9章 EM演算法
2019 july 06 em演算法 em 演算法精髓 em 演算法是通過不斷求解下界得極大化逼近對數似然函式極大化得演算法。構造下界函式 jessen 不等式 通過巧妙地取 q 的值而保證在引數的當前迭代點處下界函式與要求解的目標函式數值相等 jessen 不等式取等號 從而保證優化下界函式後在新...
EM演算法及其推廣 《統計學習方法》第9章
em演算法是一種迭代演算法,用於含有隱變數的概率模型引數的極大似然估計,或極大後驗概率估計。em演算法的每次迭代由兩步組成 e步求期望值,m步求最大值。em演算法是一種對模型引數的估計,該模型中含有隱變數 概率模型有時既含有觀測變數,又含有隱變數或潛在變數。如果概率模型的變數都是觀測變數,那麼就可以...
《統計學習方法》筆記 EM演算法
em expectation maximization algorithm 用於含有隱變數的概率模型引數的極大似然估計。例子 有三枚a,b,c硬幣。首先a為選擇硬幣,對其進行投擲,其投擲結果正則選擇b硬幣進行投擲,反為選擇c硬幣,然後根據選擇的硬幣再進行投擲,記錄該硬幣的投擲結果,正面為1,反面為0...