資料:
不完全資料,即含有隱變數——無法觀測的變數
目的:
求出模型中所有引數的合理估計。
為什麼使用em演算法:
不同於極大似然估計,可以顯式的求出使得資料似然度最大的引數,在含有隱變數的模型中,由於需要對隱變數做全概率展開,所以最終的似然函式是求和的形式,而且關鍵的是沒有隱變數資料所以無法求出最大似然度對應的引數。
em演算法需要克服以下的障礙:
1. 我們的目的是估計引數,但是現在資料有缺失,所以無法使用極大似然法。
2. 我們想直接猜測缺失資料的分布(然後使用極大似然法),卻又沒有模型引數
所以我們的做法是:直接給出乙個引數的初始值,然後計算缺失資料的分布,然後再使用缺失資料進行對引數進行修正,
不斷地 1. 修正缺失資料分布,2. 修正引數分布,直至收斂。
為什麼是給出引數初始值而不是缺失資料分布初始值:
理論上給出缺失資料分布初始值也是可行的,只不過引數初始值可能更有意義,也就是人們更加理解它的實際意義,例如再三硬幣模型中給所有引數的初始值都是0.5,這很符合直覺,而我們可能很難給出每次a是正面或反面的初始值。
EM演算法的一些感想
em演算法是最大似然估計方法 引數估計方法的一種 為什麼要引入em呢 我覺得 因為引數theta本身是依賴於資料的完整特徵 但是只觀察了部分特徵x 因此需要引入隱藏特徵z 才能建立起theta與x,z的關係。怎麼開始這個過程呢?我們現在自己的腦袋裡假設存在乙個theta 當然我們未知 利用這個the...
EM演算法的一些整理
今天把em演算法又重新看了一遍,於是決定對em演算法做一些整理,把em演算法的整個流程理清。對於一般的給定樣本,我們可以用最大似然估計或者損失函式來求解模型的引數,此時的樣本資料是完備的。但是對於某些樣本資料可能由兩個部分組成,乙個是我們觀測到的資料,還有一些是我們無法觀測的資料,也就是隱變數,對於...
關於EM演算法的一些心得感悟
最近因為準備面試,重新看了下em演算法。覺得還是有了新的收穫。大家都知道em演算法是用來解決含有隱含變數的不完全資料問題。一般部落格中舉的最多的例子就是男生女生身高的問題。具體為 假如有一批人,我們已經測得了每個人的身高,這些人中包含男生和女生,問如何分別求解得到男生和女生的身高分布的引數 一般假設...