資料探勘十大經典演算法 5 最大期望 EM 演算法

在統計計算中，最大期望（em，expectation–maximization）演算法是在概率（probabilistic）模型中尋找引數最大似然估計的演算法，其中概率模型依賴於無法觀測的隱藏變數（latent variabl）。最大期望經常用在機器學習和計算機視覺的資料集聚（data clustering）領域。最大期望演算法經過兩個步驟交替進行計算，第一步是計算期望（e），也就是將隱藏變數象能夠觀測到的一樣包含在內從而計算最大似然的期望值；另外一步是最大化（m），也就是最大化在 e 步上找到的最大似然的期望值從而計算引數的最大似然估計。m 步上找到的引數然後用於另外乙個 e 步計算，這個過程不斷交替進行。

我們用表示能夠觀察到的不完整的變數值，用一起組成了完整的資料。可能是實際測量丟失的資料，也可能是能夠簡化問題的隱藏變數，如果它的值能夠知道的話。例如，在混合模型（mixture model）中，如果「產生」樣本的混合元素成分已知的話最大似然公式將變得更加便利（參見下面的例子）。

讓代表向量 θ:定義的引數的全部資料的概率分布（連續情況下）或者概率集聚函式（離散情況下），那麼從這個函式就可以得到全部資料的最大似然值，另外，在給定的觀察到的資料條件下未知資料的條件分布可以表示為：

資料探勘十大經典演算法 5 最大期望 EM 演算法

資料探勘十大經典演算法 5 最大期望 EM 演算法

資料探勘十大經典演算法（五）最大期望 EM 演算法

資料探勘十大經典演算法

相關推薦