K means聚類演算法

k-means聚類演算法（k-平均/k-均值演算法）是最為經典也是使用最為廣泛的一種基於距離的聚類演算法。基於距離的聚類演算法是指採用距離作為相似性量度的評價指標，也就是說當兩個物件離得近時，兩者之間的距離比較小，那麼它們之間的相似性就比較大。

演算法的主要思想是通過迭代過程把資料集劃分為不同的類別，使得評價聚類效能的準則函式達到最優，從而使生成的每個聚類（又稱簇）緊湊且獨立。

k-means聚類演算法的缺點：對於離群點是敏感的，乙個很大極端值的資料物件可能會顯著地扭曲資料的分布。

常見的相似度/距離評價準則有：

其意義就是兩個元素在歐氏空間中的集合距離，因為其直觀易懂且可解釋性強，被廣泛用於標識兩個標量元素的相異度。

聚類效能評價準則：

k-means聚類演算法通常使用誤差平方和準則函式（等同於歐幾里得距離）來評價聚類效能。給定資料集x，其中只包含描述屬性，不包含類別屬性。假設x包含k個聚類子集x1,x2,…xk；各個聚類子集中的樣本數量分別為n1，n2,…,nk;各個聚類子集的均值代表點（也稱聚類中心）分別為m1，m2,…,mk。

作為乙個聚類分析的二維樣本，要求的簇的數量k=2。

學習參考：

示例計算有誤，思路沒問題。

加了對資料[0,1]規格化處理的環節，中心思想還是一樣的。

文字聚類，可以做輿情資訊彙總，分詞軟體rost cm6。

聚類，k-means基礎上的改良。對小資料集有效。

K means聚類演算法

K Means聚類演算法

聚類演算法 K means

k means聚類演算法

K means聚類演算法

K Means聚類演算法

聚類演算法 K means

k means聚類演算法

相關推薦