mahout之聚類演算法 KMeans分析

2021-05-28 14:20:13 字數 538 閱讀 7098

一,k-means聚類演算法原理

k-means 演算法接受引數 k ;然後將事先輸入的n個資料物件劃分為 k個聚類以便使得所獲得的聚類滿足:同一聚類中的物件相似度較高;而不同聚類中的物件相似度較小。聚類相似度是利用各聚類中物件的均值所獲得乙個「中心物件」(引力中心)來進行計算的。

k-means演算法是最為經典的基於劃分的聚類方法,是十大經典資料探勘演算法之一。k-means演算法的基本思想是:以空間中k個點為中心進行聚類,對最靠近他們的物件歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結果。

假設要把樣本集分為c個類別,演算法描述如下:

(1)適當選擇c個類的初始中心;

(2)在第k次迭代中,對任意乙個樣本,求其到c個中心的距離,將該樣本歸到距離最短的中心所在的類;

(3)利用均值等方法更新該類的中心值;

(4)對於所有的c個聚類中心,如果利用(2)(3)的迭代法更新後,值保持不變,則迭代結束,否則繼續迭代。

該演算法的最大優勢在於簡潔和快速。演算法的關鍵在於初始中心的選擇和距離公式。

Scikit learn實戰之聚類 Kmeans

在scikit learn中,對於未標記資料的執行聚類需要使用 sklearn.cluster 模組。每乙個聚類演算法有兩個變數組成 乙個是類,它實現了fit方法從未標記的訓練資料中學習類簇 還有乙個就是函式,該函式的功能就是給它一批訓練資料,它能夠返回與每一批訓練資料相對應的類標的結果的整數集合。...

Mahout系列 譜聚類

1.構造親和矩陣w 2.構造度矩陣d 3.拉普拉斯矩陣l 4.計算l矩陣的第二小特徵值 譜 對應的特徵向量fiedler 向量 5.以fiedler向量作為kmean聚類的初始中心,用kmeans聚類 親和矩陣 w ij exp d s i,s j 2o 2 d s i,s j s i,s j o ...

文字挖掘之聚類演算法之CLARA聚類演算法

clara 大型應用中的聚類方法 kaufmann and rousseeuw in 1990 不考慮整個資料集,而是選擇資料的一小部分作為樣本.clara演算法的步驟 它從資料集中抽取多個樣本集,對每個樣本集使用pam,並以最好的聚類作為輸出 clara 演算法的步驟 1 for i 1 to v...