1. 高斯分布的一些結論:
利用似然估計對一組符合高斯分布的資料進行分析,得到其均值的估計就是樣本的均值,方差的估計就是樣本方差。
具體推導如下
高斯分布的概率密度函式為
對一組符合高斯分布的樣本進行似然估計,將樣本代入概率密度函式,有目標函式
轉換成對數似然
分別對均值和方差求導,可以得到
高斯混合模型是由多個高斯模型混合。其目標函式
這表明乙個樣本多個不同比重的高斯分布混合形成的,每個高斯分布對樣本的貢獻,可以這樣做
這其實就是樣本屬於某乙個高斯分布的概率。
所以高斯混合模型的引數估計可以分成兩步做
第一步是先驗的給出均值和方差,還要先驗的給出每個高斯分布出現的概率。然後計算每乙個樣本屬於某個高斯分布的概率,這是可以求得,因為我們先驗的給出了每乙個高斯分布的均值和方差,只要把樣本值代進上式,就能計算出該樣本屬於每乙個高斯分布的概率。
第二步是根據樣本更新引數。
此處詳見李航-統計學習方法165頁
對於混合高斯模型,舉個簡單的例子。對於10000個男女生樣本,他們的身高都服從高斯分布,也就是男生的身高服從乙個高斯分布,女生的身高服從乙個高斯分布。估計這兩個高斯分布的均值和方差。
第一步,先驗的給出女生和男生樣本的概率和女生身高所服從的高斯分布的均值和方差,男生身高所服從的高斯分布的均值和方差。然後對於每乙個樣本,計算屬於男生的概率和屬於女生的概率。這樣我們可以算出所有樣本的概率。
第二步,用樣本值分別乘上該樣本屬於男生和女生的概率,這樣乙個樣本可以得到兩個值,分別代表了屬於男生和屬於女生。然後用所有樣本的屬於男生的那部分作為新的樣本集估計男生的概率密度分布的均值和方差,用所有樣本的屬於女生的那部分作為新的樣本集估計女生的概率密度分布的均值和方差。但是要注意的一點是
在計算均值是n並不是1000,而應該是所有樣本的那些屬於男生的概率之和,記為n男。而n男/10000,就是新的男生出現的概率。女生同理。
這樣得到的均值和方差就帶有了樣本的一些資訊,比之前先驗的給出更加的符合樣本。
機器學習理論 GMM模型
李航.統計學習方法中高斯混合模型僅介紹一元高斯分布的情況,周志華.機器學習則採用多元高斯分布的寫法,但求解過程不夠突出em演算法的思想。此外,李航.統計學習方法中的一些寫法會產生誤解。因此下面過程主要根據李航.統計學習方法中的推導方法,但會有部分修正。gmm演算法主要利用em演算法來估計高斯混合模型...
機器學習 GMM高斯混合模型
高斯混合模型 乙個資料集可以由1 n個高斯模型加權求和來生成。採用概率模型來表達資料分布。由於涉及的符號太多,因此演算法詳細推導過程在這份pdf裡面 1.演算法原理 1.1 gmm為什麼需要em演算法 1 無限個高斯分布可以生成任意複雜的資料分布形式,我們試圖通過設定k個高斯模型來建立乙個生成式模型...
常用機器學習演算法 高斯混合模型 GMM
高斯混合模型通過多個正態分佈的加權和來描述乙個隨機變數的概率分布,概率密度函式定義為 其中x為隨機向量,k為高斯分布的個數,w i 為權重,u為高斯分布的均值向量,e為協方差矩陣。所有權重之和為1,即 任意乙個樣本可以看作是先從k個高斯分布中選擇出乙個,選擇第i個高斯分布的概率為w i 再由第i個高...