mahout之聚類演算法 KMeans分析

一，k-means聚類演算法原理

k-means 演算法接受引數 k ；然後將事先輸入的n個資料物件劃分為 k個聚類以便使得所獲得的聚類滿足：同一聚類中的物件相似度較高；而不同聚類中的物件相似度較小。聚類相似度是利用各聚類中物件的均值所獲得乙個「中心物件」（引力中心）來進行計算的。

k-means演算法是最為經典的基於劃分的聚類方法，是十大經典資料探勘演算法之一。k-means演算法的基本思想是：以空間中k個點為中心進行聚類，對最靠近他們的物件歸類。通過迭代的方法，逐次更新各聚類中心的值，直至得到最好的聚類結果。

假設要把樣本集分為c個類別，演算法描述如下：

（1）適當選擇c個類的初始中心；

（2）在第k次迭代中，對任意乙個樣本，求其到c個中心的距離，將該樣本歸到距離最短的中心所在的類；

（3）利用均值等方法更新該類的中心值；

（4）對於所有的c個聚類中心，如果利用（2）（3）的迭代法更新後，值保持不變，則迭代結束，否則繼續迭代。

該演算法的最大優勢在於簡潔和快速。演算法的關鍵在於初始中心的選擇和距離公式。