學習筆記 K means演算法

2021-08-03 05:44:29 字數 2430 閱讀 8033

在資料探勘中,k-means演算法是一種cluster analysis的演算法,其主要是來計算資料聚集的演算法,主要通過不斷地取離種子點最近均值的演算法。

問題k-means演算法主要解決的問題如下圖所示。我們可以看到,在圖的左邊有一些點,我們用肉眼可以看出來有四個點群,但是我們怎麼通過電腦程式找出這幾個點群來呢?於是就出現了我們的k-means演算法(wikipedia鏈結)

k-means要解決的問題

演算法概要

這個演算法其實很簡單,如下圖所示: 

從上圖中,我們可以看到,a,b,c,d,e是五個在圖中點。而灰色的點是我們的種子點,也就是我們用來找點群的點。有兩個種子點,所以k=2。

然後,k-means的演算法如下:

隨機在圖中取k(這裡k=2)個種子點。

然後對圖中的所有點求到這k個種子點的距離,假如點pi離種子點si最近,那麼pi屬於si點群。(上圖中,我們可以看到a,b屬於上面的種子點,c,d,e屬於下面中部的種子點)

接下來,我們要移動種子點到屬於他的「點群」的中心。(見圖上的第三步)

然後重複第2)和第3)步,直到,種子點沒有移動(我們可以看到圖中的第四步上面的種子點聚合了a,b,c,下面的種子點聚合了d,e)。

這個演算法很簡單,但是有些細節我要提一下,求距離的公式我不說了,大家有初中畢業水平的人都應該知道怎麼算的。我重點想說一下「求點群中心的演算法」。

求點群中心的演算法

一般來說,求點群中心點的演算法你可以很簡的使用各個點的x/y座標的平均值。不過,我這裡想告訴大家另三個求中心點的的公式:

1)minkowski distance公式——λ可以隨意取值,可以是負數,也可以是正數,或是無窮大。

2)euclidean distance公式——也就是第乙個公式λ=2的情況

3)cityblock distance公式——也就是第乙個公式λ=1的情況

這三個公式的求中心點有一些不一樣的地方,我們看下圖(對於第乙個λ在0-1之間)。

(1)minkowski distance     (2)euclidean distance    (3)cityblock distance

上面這幾個圖的大意是他們是怎麼個逼近中心的,第乙個圖以星形的方式,第二個圖以同心圓的方式,第三個圖以菱形的方式。

k-means的演示

操作是,滑鼠左鍵是初始化點,右鍵初始化「種子點」,然後勾選「show history」可以看到一步一步的迭代。

注:這個演示的鏈結也有乙個不錯的k means tutorial。

k-means++演算法

k-means主要有兩個最重大的缺陷——都和初始值有關:

我在這裡重點說一下k-means++演算法步驟:

先從我們的資料庫隨機挑個隨機點當「種子點」。

對於每個點,我們都計算其和最近的乙個「種子點」的距離d(x)並儲存在乙個陣列裡,然後把這些距離加起來得到sum(d(x))。

然後,再取乙個隨機值,用權重的方式來取計算下乙個「種子點」。這個演算法的實現是,先取乙個能落在sum(d(x))中的隨機值random,然後用random -= d(x),直到其<=0,此時的點就是下乙個「種子點」。

重複第(2)和第(3)步直到所有的k個種子點都被選出來。

進行k-means演算法。

相關的**你可以在這裡找到「implement the k-means++ algorithm」(牆)另,apache的通用資料學庫也實現了這一演算法

k-means演算法應用

看到這裡,你會說,k-means演算法看來很簡單,而且好像就是在玩座標點,沒什麼真實用處。而且,這個演算法缺陷很多,還不如人工呢。是的,前面的例子只是玩二維座標點,的確沒什麼意思。但是你想一下下面的幾個問題:

1)如果不是二維的,是多維的,如5維的,那麼,就只能用計算機來計算了。

2)二維座標點的x,y 座標,其實是一種向量,是一種數學抽象。現實世界中很多屬性是可以抽象成向量的,比如,我們的年齡,我們的喜好,我們的商品,等等,能抽象成向量的目的就是可以讓計算機知道某兩個屬性間的距離。如:我們認為,18歲的人離24歲的人的距離要比離12歲的距離要近,鞋子這個商品離衣服這個商品的距離要比電腦要近,等等。

只要能把現實世界的物體的屬性抽象成向量,就可以用k-means演算法來歸類了

在《k均值聚類(k-means)》 這篇文章中舉了乙個很不錯的應用例子,作者用亞洲15支足球隊的2023年到2023年的戰績做了乙個向量表,然後用k-means把球隊歸類,得出了下面的結果,呵呵。

其實,這樣的業務例子還有很多,比如,分析乙個公司的客戶分類,這樣可以對不同的客戶使用不同的商業策略,或是電子商務中分析商品相似度,歸類商品,從而可以使用一些不同的銷售策略,等等。

最後給乙個挺好的演算法的幻燈片:

來自:coolshell

學習筆記 K means 演算法

學習k means 演算法前,需要先學習k means演算法,可以參考這篇部落格看得懂的k means 既然了解了k means演算法,那麼我們來對比下k means 有什麼變化。首先k means最大的問題就是對初始點選擇特別敏感,那麼我們就乙個乙個選,而不是k個一起選。步驟與k means類似 ...

學習筆記 K means演算法

我們先來看一下乙個k means的聚類效果圖 隨機設定k個特徵空間內的點作為初始的聚類中心 對於其他每個點計算到k個中心的距離,未知的點選擇最近的乙個聚類中心點作為標記類別 接著對著標記的聚類中心之後,重新計算出每個聚類的新中心點 平均值 如果計算得出的新中心點與原中心點一樣,那麼結束,否則重新進行...

K means演算法的學習筆記

感謝吳教授的講述 今天在學習k means演算法 首先我們需要了解並且確定的是 在k means演算法中,隨著迭代次數的增多,損傷函式的值會不斷下降,而不會出現公升高的情況。也就是說,如果我們繪製出當前k means方法的損失函式的曲線,而發現出現在某次迭代時,出現損失函式值上公升的情況,那麼肯定是...