k-means演算法
這是基於劃分的聚類演算法,該演算法效率較高,對大規模資料進行聚類時被廣泛使用。
基本思路:把資料集劃分成k
個簇,每個簇內部的樣本非常相似,不同簇之間的差異非常大。
k-means演算法是乙個迭代演算法,先隨機選擇
k個物件,每個物件代表了起中心,對於剩下的物件,將其賦給最近的簇,然後重新計算簇的中心。不斷重複,直到準則函式收斂。
演算法:1 資料預處理
l 連續屬性:標準化,如
l 離散屬性:進行二進位制編碼。引入調節因子,平抑離散屬性的影響比連續屬性的大的差別。
2 確定初始質心(有的是隨機選擇)
① 選擇第乙個作為第乙個質心
② 其他樣本與第乙個質心歐幾里得距離最遠的為第二個
③ 不斷重複上面兩步,確定k
個質心。
3 指派樣本
計算每個樣本點與這k
個的距離,將其歸類到其中。
4 更新質點
5 停止準則
最大迭代次數
差異容忍度
k means聚類分析
k means演算法是machine learning領域內比較常用的演算法之一。首先從n個資料物件任意選擇 k 個物件作為初始聚類中心 而對於所剩下其它物件,則根據它們與這些聚類中心的相似度 距離 分別將它們分配給與其最相似的 聚類中心所代表的 聚類 然 後再計算每個所獲新聚類的聚類中心 該聚類中...
K means聚類分析
主成分分析 pca pca n components 0.9 data pca.fit transform cross 降維x data 500 x.shape 對類別預設為4 km kmeans n clusters 4 km.fit x predict km.predict x 顯示聚類結果 p...
聚類分析之 Kmeans演算法(一)
聚類分析是一種靜態資料分析方法,常被用於資料探勘 機器學習 模式識別等領域,聚類是一種無監督式的學習方法。它是在未知樣本類別的情況下,通過計算樣本彼此間的距離 歐式距離,馬式距離,漢明距離,余弦距離等 來估計樣本所屬類別。從結構性來劃分,聚類方法分為自上而下和自下而上兩種方法。聚類的演算法有很多種,...