K Means演算法與FCM演算法

2021-09-29 01:27:33 字數 2550 閱讀 3343

一、前期準備

1.收集資料

2.描述資料集

二、原理分析

1.k-means聚類法

這要從聚類開始說起:

聚類①是對於靜態資料分析的一門技術,在許多領域受到廣泛應用,包括機器學習,資料探勘,模式識別,影象分析以及生物資訊。

②是把相似的物件通過靜態分類的方法分成不同的組別或者更多的子集,讓在同乙個子集中的成員都有相似的一些屬性。

③是其他分析演算法的乙個預處理步驟。

④是一種無監督的分類

聚類分析的演算法分類:

劃分法(分割式)、層次式(階層式)、基於密度的方法、基於網格的方法、基於模型的方法

而k-means與fuzzy c-means演算法都屬於劃分法

劃分法概念:

給定乙個有n個元組或者記錄的資料集,構造k(k對於給定的k,演算法首先給出乙個初始的分組方法,以後通過反覆迭代的方式改變分組,使得每一次改進之後的分組方案都較前一次好。

好的標準:同一分組中的記錄越近越好,不同分組中的記錄越遠越好。

k-means聚類法:

----將n個資料依照其資料特徵聚類為k類的聚類演算法,k為一正整數----目標在於求各個資料與其對應聚類中心點距離平方和的最小值

ji為第i個聚類的目標函式

k為聚類個數

xj為第j個輸入向量

ci為第i個聚類中心

wij為權重(xj是否屬於聚類ci)

k-means的歸屬矩陣

k-means實現步驟:

1.隨機選取k個資料點ci,i=1,…,k,並將之分別視為各聚類的初始中心

2.決定各資料點所屬之聚類,若資料點xj判定屬於第i聚類,則權重值wij=1,否則為0

並滿足(2)式

3.由(1)式計算目標函式j,如果j保持不變,代表結果已經穩定不變,則可結束此次迭代方法,否則進入步驟4

4.以(4)式更新聚類的中心點,回到步驟2

1.設定聚類數目k,最大執行步驟tmax,乙個很小的容忍誤差ε>0;

2.決定聚類中心起始位置cj(0),0c.計算收斂準則,若e(t)=||j(t) - j(t-1)||

k-means聚類分析是一種硬劃分,它把每個待辨識的物件嚴格地劃分到某個類中,具有非此即彼的性質

但在遇到蝴蝶型資料集時,k-means聚類法則無法很好地解決

為了解決這樣的情況,dunn利用ruspini提出的模糊劃分的概念,將硬聚類推廣到模糊聚類,2023年jim bezdek將dunn的工作推廣到基於模糊度m的一般fuzzy c-means形式,其目標函式定義如同k-means聚類法,但其權重矩陣w不再是二元矩陣,而是應用了模糊理論的概念,使得每一輸入向量不再僅歸屬於某一特定的聚類,而以其歸屬程度來表現屬於各聚類的程度.

目標函式j如下:

xj為資料點

ci為聚類中心

n為資料個數

k為聚類中心點個數

m為權重指數

樣本點xj

fuzzy c-means實現步驟:

1.設定分類個數k,設定初始權重矩陣,隨機給定0~1之值,並滿足權重總和為1如(6)式

2.如(7)式計算聚類中心點

3.由(5)式計算目標函式值,當目標函式值小於設定的容忍誤差可結束迭代過程,否則執行步驟4

e(t)=||j(t) - j(t-1)||

4.重新計算權重矩陣w如(8)式,並回到步驟2進行運算

程式設計步驟:

1.設定聚類數目k,最大執行步驟tmax,乙個很小的容忍誤差ε>0;

2.決定聚類中心起始位置cj(0),0使用k-means聚類法與fuzzy c-means聚類法都需要事先確定聚類的數目兩者最大的差異在於fcm聚類法加入了模糊的概念,使得每一輸入向量不再僅隸屬於某一特定的聚類,而是以隸屬程度來表現.

FCM演算法與K Means演算法的聚類

模糊c均值 fuzzy c means 演算法簡稱fcm演算法,是一種基於目標函式劃分的模糊聚類演算法,主要用於資料的聚類分析。它的思想就是使得被劃分到同一簇的物件之間相似度最大,而不同簇之間的相似度最小。fcm把n個向量xi i 1,2,n 分為c個模糊組,並求每組的聚類中心,使得非相似性指標的價...

Kmeans與Meanshift EM演算法的關係

kmeans與meanshift em演算法的關係 kmeans 演算法是一種經典的聚類演算法,在模式識別中得到了廣泛的應用,基於 kmeans 的變種演算法也有很多,模糊 kmeans 分層kmeans等。kmeans 和應用於混合高斯模型的受限 em演算法是一致的。高斯混合模型廣泛用於資料探勘 ...

Fcm演算法初步學習探索

fcm演算法是一種基於劃分的聚類演算法 能夠將相似度比較高的分配到同乙個簇當中,也可以說是同乙個簇當中的物件分配到同乙個簇當中。反之而言,相似度不高的不會被分配在同乙個簇中,或者說,不在同乙個簇中的物件,相似度不高 低 一般而言都會有乙個隸屬度函式,在這兒簡稱隸屬度。隸屬度對於每乙個物件a 這兒用a...