劃分聚類 Kmeans演算法

劃分聚類

聚類是針對一堆沒有類別屬性的物件的，它把這一大堆物件分成一些小堆，並保證小堆內的物件之間彼此相似，小堆之間的物件彼此不同。劃分聚類是聚類的一種，由它生成的小堆，小堆間沒有一樣的元素，大堆小堆之間關係和大集合與它的的分割一樣。

kmeans演算法

設資料點(物件)的集合為：

其中，xi

= 是實數空間rr

中的向量，r是資料的屬性數目。kmeans演算法把資料點集合劃分成k個聚類；每個聚類有乙個中心，中心是聚類中所有成員向量的均值；這就是演算法名字的由來。演算法的偽**如下：

其中, k是指定的要生成的聚類數目，d是資料點集合。

從演算法偽**中可以看到，演算法開始時，從資料點集合中任意選取k個點作為初始的聚類中心；然後開始迭代，直至滿足迭代終止條件為止。每一次迭代，都計算每乙個點到k個聚類中心的距離，把資料點分配給離自己最近的中心，得到k個聚類，然後根據k個聚類現有的成員計算新的聚類中心。終止條件可以是下面三個之一：

沒有(或最小數目)資料點被重新分配給不同的聚類。

沒有(或最小數目)聚類中心再發生變化。

誤差平方和(sum of squares for error, sse)區域性最下 ss

e=∑k

j=1∑

x∈cj

dist

(x,m

j)2

其中，k表示需要的聚類數目，cj

表示第j個聚類，mj

表示第j個聚類的聚類中心，di

st(x

,mj)

表示資料點和聚類中心間的聚類。

參考資料：

《web資料探勘》第2版，bing liu 著，俞勇譯

《資料探勘概念與技術》第3版，jiawei han，micheline kamber，jian pei 著，范明，孟小峰譯