給定乙個n個物件的資料集,劃分聚類技術將構造資料的k個劃分,每乙個劃分就代表乙個簇,k<=n。將資料劃分為k個簇,且k個劃分滿足下列條件:
每乙個簇至少包括乙個物件
每乙個物件屬於且僅屬於乙個簇
劃分思想
「物以類聚,人以群分」
距離越近,相似度越大,相異度越小。
明可夫斯基距離公式
d (i
,j)=
q(∑(
xi−x
j)q)
d(i,j)=^\sqrt(\sum (x_-x_)^q)
d(i,j)
=q(
∑(xi
−xj
)q)
q=1:曼哈頓距離
q=2:歐幾里得距離
評價函式
觀察聚類的簇內差異和簇間差異。在同乙個簇中的物件盡可能相似,不同簇中的物件盡可能相異。
簇內:wc的值越小越好
簇外:又叫k-平均演算法,採用距離作為相異度的評價指標,以簇內差異函式作為聚類質量的優化目標函式,即將所有資料物件到它的粗中心點的距離平方和作為目標函式,演算法尋找最優聚類的策略是使目標函式達到最小值(簇中心不變化等價於wc達到最小值)
移動簇中心
對每個簇求平均,如果不等於當前中心點,則平均作為簇中心,如果存在乙個簇的中心不等於平均,迴圈。
學習筆記 K means演算法
在資料探勘中,k means演算法是一種cluster analysis的演算法,其主要是來計算資料聚集的演算法,主要通過不斷地取離種子點最近均值的演算法。問題k means演算法主要解決的問題如下圖所示。我們可以看到,在圖的左邊有一些點,我們用肉眼可以看出來有四個點群,但是我們怎麼通過電腦程式找出...
學習筆記 K means 演算法
學習k means 演算法前,需要先學習k means演算法,可以參考這篇部落格看得懂的k means 既然了解了k means演算法,那麼我們來對比下k means 有什麼變化。首先k means最大的問題就是對初始點選擇特別敏感,那麼我們就乙個乙個選,而不是k個一起選。步驟與k means類似 ...
學習筆記 K means演算法
我們先來看一下乙個k means的聚類效果圖 隨機設定k個特徵空間內的點作為初始的聚類中心 對於其他每個點計算到k個中心的距離,未知的點選擇最近的乙個聚類中心點作為標記類別 接著對著標記的聚類中心之後,重新計算出每個聚類的新中心點 平均值 如果計算得出的新中心點與原中心點一樣,那麼結束,否則重新進行...