k means演算法課堂筆記

2021-10-24 11:18:23 字數 665 閱讀 5156

給定乙個n個物件的資料集,劃分聚類技術將構造資料的k個劃分,每乙個劃分就代表乙個簇,k<=n。將資料劃分為k個簇,且k個劃分滿足下列條件:

每乙個簇至少包括乙個物件

每乙個物件屬於且僅屬於乙個簇

劃分思想

「物以類聚,人以群分」

距離越近,相似度越大,相異度越小。

明可夫斯基距離公式

d (i

,j)=

q(∑(

xi−x

j)q)

d(i,j)=^\sqrt(\sum (x_-x_)^q)

d(i,j)

=q(​

∑(xi

​−xj

​)q)

q=1:曼哈頓距離

q=2:歐幾里得距離

評價函式

觀察聚類的簇內差異和簇間差異。在同乙個簇中的物件盡可能相似,不同簇中的物件盡可能相異。

簇內:wc的值越小越好

簇外:又叫k-平均演算法,採用距離作為相異度的評價指標,以簇內差異函式作為聚類質量的優化目標函式,即將所有資料物件到它的粗中心點的距離平方和作為目標函式,演算法尋找最優聚類的策略是使目標函式達到最小值(簇中心不變化等價於wc達到最小值)

移動簇中心

對每個簇求平均,如果不等於當前中心點,則平均作為簇中心,如果存在乙個簇的中心不等於平均,迴圈。

學習筆記 K means演算法

在資料探勘中,k means演算法是一種cluster analysis的演算法,其主要是來計算資料聚集的演算法,主要通過不斷地取離種子點最近均值的演算法。問題k means演算法主要解決的問題如下圖所示。我們可以看到,在圖的左邊有一些點,我們用肉眼可以看出來有四個點群,但是我們怎麼通過電腦程式找出...

學習筆記 K means 演算法

學習k means 演算法前,需要先學習k means演算法,可以參考這篇部落格看得懂的k means 既然了解了k means演算法,那麼我們來對比下k means 有什麼變化。首先k means最大的問題就是對初始點選擇特別敏感,那麼我們就乙個乙個選,而不是k個一起選。步驟與k means類似 ...

學習筆記 K means演算法

我們先來看一下乙個k means的聚類效果圖 隨機設定k個特徵空間內的點作為初始的聚類中心 對於其他每個點計算到k個中心的距離,未知的點選擇最近的乙個聚類中心點作為標記類別 接著對著標記的聚類中心之後,重新計算出每個聚類的新中心點 平均值 如果計算得出的新中心點與原中心點一樣,那麼結束,否則重新進行...