機器學習演算法之Kmeans演算法(K均值演算法)

2022-01-10 17:19:28 字數 688 閱讀 3758

kmeans演算法是典型的基於距離的聚類演算法,採用距離作為相似性的評價指標,即認為兩個物件的距離越近,其相似度就越大。該演算法認為簇是由距離靠近的物件組成的,因此把得到緊湊且獨立的簇作為最終目標。

兩個樣本在歐式空間中的距離

引入新概念:

cluster: 表示乙個簇

centroid: 表示當前簇的中心

1.隨機從資料集中選取k個樣本當做centroid

2.對於資料集中的每個點,計算它距離每個centroid的距離,並把它歸為距離最近打那個cluster

3.更新新的centroid位置

4.重複2和2,直到centroid的位置不再改變

pros:

1. 非監督類的演算法不需要樣本的標註資訊
cons:
1. 不能利用到資料的標註資訊,意味著模型的效能不如其他監督學習

2. 對於k的取值,也就是你認為資料集中的樣本應該分為幾類,這個引數的設定極為敏感!

不同的k值,導致完全不同的分類結果!

3. 對於資料集本身樣本的分布也很敏感

knn:
1.只關注待測樣本的區域性分布

2.k:k個最近鄰

3.監督類模型

kmeans:
1.關注樣本的全域性分布

2.k:k個簇

機器學習之k means演算法

從資料集中隨機選擇k個聚類樣本作為初始的聚類中心,然後計算資料集中每個樣本到這k個聚類中心的距離,並將此樣本分到距離最小的聚類中心所對應的類中。將所有樣本歸類後,對於每個類別重新計算每個類別的聚類中心即每個類中所有樣本的質心,重複以上操作直到聚類中心不變為止。k means存在缺點 1 k mean...

機器學習之K means演算法

前言 簡介 在之前發表的線性回歸 邏輯回歸 神經網路 svm支援向量機等演算法都是監督學習演算法,需要樣本進行訓練,且 樣本的類別是知道的。接下來要介紹的是非監督學習演算法,其樣本的類別是未知的。非監督學習演算法中,比較有代表性 的就是聚類演算法。而聚類演算法中,又有 以上只是部分演算法,在這裡就不...

機器學習 K Means演算法

簡介 又叫k 均值演算法,是非監督學習中的聚類演算法。基本思想 k means演算法比較簡單。在k means演算法中,用cluster來表示簇 容易證明k means演算法收斂等同於所有質心不再發生變化。基本的k means演算法流程如下 選取k個初始質心 作為初始cluster,每個初始clus...