高斯混合聚類
將高斯分布、貝葉斯公式、極大似然法(em)估計
的思路混合在這一種方法中。
高斯混合聚類是從概率的角度對樣本進行聚類的,而且這個概率是連續概率。
先驗概率:指根據以往經驗和分析得到的概率。
類條件概率:指已知乙個條件下,結果發生的概率。
後驗概率:判斷結果的發生是由哪個原因引起的概率。
一元高斯函式:
多元高斯分布:對n維樣本空間 x中的隨機向量x,若
x服從高斯分布,其概率密度函式為:
上面的一元正態公式其實就是當n
= 1
的時候的特殊化。
其中μ是n維均值向量,
二元高斯曲線:
現在用西瓜例子來理解一下貝葉斯公式。
事件a:隨機從壞瓜、一般瓜和好瓜三類中選一類。( p(a i)是三個常數,i=3);
事件b:隨機在一類瓜中選乙個含糖量為某值、密度為某值的瓜。(p(b j ) 是二維高斯曲線,j=3)
1.乘法公式:在自然界中隨機選擇乙個瓜(事件a b ), p(ab) = p(a)p(b|a) = p(b)p(a|b),
操作是選乙個類再在這個類裡選乙個瓜。或者先隨機決定要選的瓜的含糖量和密度數值,再隨機決定要去哪類瓜里找。
2.全概率公式:事先寫下我想要的「dream瓜」的含糖量和密度數值(事 件 b ),隨機選乙個瓜,選中瓜的剛好是我的dream瓜的概率: p ( b ) = p ( a 1 ) p ( b ∣ a 1 ) + p ( a 2 ) p ( b ∣ a 2 ) + … + p ( a n ) p ( b ∣ a n ) 。將這個數值已確定的瓜是來自壞瓜、一般瓜、好瓜的概率分別相加。
3.貝葉斯公式:隨機抽個瓜,假如我抽到了乙個含量糖為某值、密度為某值的瓜,這個瓜是來自第i ii類瓜的概率?在第i ii類中抽到這個數值的瓜的概率除以從各類中抽到這個數值的瓜的概率之和。
我們可定義高斯混合分布:
我們已知樣本集30個瓜的含量糖、密度的值。先重點研究其中乙個編號為x 的樣本瓜x,p m ( x ) 是指我們在自然界中隨機選乙個瓜,選中的恰好是這個樣本瓜x 的概率。
1.首先,當i =1,比如這裡是指壞瓜類,那麼這時壞瓜的高斯曲線已知已確定了(μ 1、σ 1 已確定)。根據這個確定高斯曲線可以得到樣本瓜x 在壞瓜類中存在的概率p(x∣μ 1,σ 1 )。
2.然後,p(x∣μ 1,σ 1 )與 α i 相乘的結果就是從壞瓜類中抽中樣本瓜x xx的概率。
3.最後,分別計算i =1(從壞瓜類中抽)、i=2(從一般瓜類中抽)和i =3(從好瓜類中抽)的情況下抽到樣本瓜x 的概率,將這三種情況下的概率相加,得到的p m ( x ) 即是在自然界中抽乙個瓜正好抽中樣本瓜x 的概率。
後驗分布:假如已知μ 、 σ ,現在我們已經拿到了乙個瓜,已知這個瓜的含糖量和密度數值,但不知道這個瓜來自哪個類,怎麼辦?我們可以將這個瓜的含糖量和密度數值分別代入3類瓜的高斯分布曲線,在哪類瓜中的概率高,即說明這個瓜來自哪類瓜的可能性最大。
如何劃分簇:從原型聚類的角度來看,高斯混合聚類是採用概率模型(高斯分布)對原型進行刻畫, 簇劃分則由原型對應後驗概率確定。
混合高斯模型聚類
翻譯自matlab幫助。混合高斯模型簡介 混合高斯模型基於多變數正 態分布。類gmdistribution通過使用em演算法來擬合資料,它基於各觀測量計算各成分密度的後驗概率。高斯混合模型常用於聚類,通過選擇成分最大化後驗概率來完成聚類。與k means聚類相似,高斯混合模型也使用迭代演算法計算,最...
聚類演算法之高斯混合模型
高斯混合模型 gmm gaussian mixture model 統計學習的模型有兩種,一種是概率模型,一種是非概率模型。所謂概率模型,是指訓練模型的形式是p y x 輸入是x,輸出是y,訓練後模型得到的輸出不是乙個具體的值,而是一系列的概率值 對應於分類問題來說,就是輸入x對應於各個不同y 類 ...
用matlab做高斯混合模型 GMM 聚類分析
訓練gmm引數 options statset maxiter 1000 gmm gmdistribution.fit feature,k,covtype diagonal regularize 1e 10,options options k 聚類的總類別數 covtype 設定協方差矩陣的型別 r...