高斯混合模型(gmm),顧名思義,就是資料可以看作是從數個高斯分布中生成出來的。雖然我們可以用不同的分布來隨意地構造 xx mixture model ,但是 gmm是 最為流行。另外,mixture model 本身其實也是可以變得任意複雜的,通過增加 model 的個數,我們可以任意地逼近任何連續的概率密分布。
每個 gmm 由 k 個 gaussian 分布組成,每個 gaussian 稱為乙個「component」,這些 component 線性加成在一起就組成了 gmm 的概率密度函式:
$$ p(x) = \sum\limits_^k p(k)p(x|k) = \sum\limits_^k \pi _k\mathcal(x|\mu_k,\sigma_k)\tag $$
假設現在有\n\資料點,我們認為這些資料點由某個gmm模型產生,現在我們要需要確定 這些引數。很自然的,我們想到利用最大似然估計來確定這些引數,gmm的似然函式如下:
$$ \log \prod \limits_^np(x_i) = \sum\limits_^n \log p(x_i)=\sum\limits_^n\log\sum\limits_^k \pi _k\mathcal(x_i|\mu_k, \sigma_k)\tag $$
高斯混合模型與EM演算法
對於高斯混合模型是幹什麼的呢?它解決什麼樣的問題呢?它常用在非監督學習中,意思就是我們的訓練樣本集合只有資料,沒有標籤。它用來解決這樣的問題 我們有一堆的訓練樣本,這些樣本可以一共分為k類,用z i 表示。但是具體樣本屬於哪類我們並不知道,現在我們需要建立乙個模型來描述這個訓練樣本的分布。這時,我們...
EM及高斯混合模型
本文就高斯混合模型 gmm,gaussian mixture model 引數如何確立這個問題,詳細講解期望最大化 em,expectation maximization 演算法的實施過程。多維變數x服從高斯分布時,它的概率密度函式pdf為 x是維度為d的列向量,u是模型期望,是模型方差。在實際應用...
混合高斯模型(GMM)與EM演算法
有乙個資料集d d d 中的每個資料點是這樣產生的,先從k個類別中選擇乙個類別,然後從該類別對應的資料產生分布中產生資料點。若k選1的對應的分布是multinoulli分布,每個類別對應的資料產生分布是不同的高斯分布,估計資料點x對應的分布。這個問題對應的模型就是乙個混合高斯模型,具體的資料產生過程...