劃分聚類
聚類是針對一堆沒有類別屬性的物件的,它把這一大堆物件分成一些小堆,並保證小堆內的物件之間彼此相似,小堆之間的物件彼此不同。劃分聚類是聚類的一種,由它生成的小堆,小堆間沒有一樣的元素,大堆小堆之間關係和大集合與它的的分割一樣。
kmeans演算法
設資料點(物件)的集合為:
其中,xi
= 是實數空間rr
中的向量,r是資料的屬性數目。kmeans演算法把資料點集合劃分成k個聚類;每個聚類有乙個中心,中心是聚類中所有成員向量的均值;這就是演算法名字的由來。演算法的偽**如下:
其中, k是指定的要生成的聚類數目,d是資料點集合。
從演算法偽**中可以看到,演算法開始時,從資料點集合中任意選取k個點作為初始的聚類中心;然後開始迭代,直至滿足迭代終止條件為止。每一次迭代,都計算每乙個點到k個聚類中心的距離,把資料點分配給離自己最近的中心,得到k個聚類,然後根據k個聚類現有的成員計算新的聚類中心。終止條件可以是下面三個之一:
沒有(或最小數目)資料點被重新分配給不同的聚類。
沒有(或最小數目)聚類中心再發生變化。
誤差平方和(sum of squares for error, sse)區域性最下 ss
e=∑k
j=1∑
x∈cj
dist
(x,m
j)2
其中,k表示需要的聚類數目,cj
表示第j個聚類,mj
表示第j個聚類的聚類中心,di
st(x
,mj)
表示資料點和聚類中心間的聚類。
參考資料:
《web資料探勘》第2版,bing liu 著, 俞勇 譯
《資料探勘概念與技術》第3版,jiawei han,micheline kamber,jian pei 著,范明,孟小峰 譯
K Means聚類演算法
k means聚類演算法 intergret kmeans演算法的基本思想是初始隨機給定k個簇中心,按照最鄰近原則把待分類樣本點分到各個簇。然後按平均法重新計算各個簇的質心,從而確定新的簇心。一直迭代,直到簇心的移動距離小於某個給定的值。k means聚類演算法主要分為三個步驟 1 第一步是為待聚類...
聚類演算法 K means
演算法接受引數 k 然後將事先輸入的n個資料物件劃分為 k個聚類以便使得所獲得的聚類滿足 同一聚類中的物件相似度較高 而不同聚類中的物件相似度較小。聚類相似度是利用各聚類中物件的均值所獲得乙個 中心物件 引力中心 來進行計算的。k means演算法是最為經典的基於劃分的聚類方法,是十大經典資料探勘演...
k means聚類演算法
說到聚類,得跟分類區別開來,分類是按人為給定的標準將樣本歸到某個類別中去,在機器學習中多是監督學習,也就是訓練樣本要給標籤 正確的類別資訊 而聚類是在某種規則下自動將樣本歸類,在機器學習中是無監督學習,不需要提前給樣本打標籤。k means聚類演算法,就是在某種度量方式下,將樣本自動劃分到k個類別中...