資料探勘十大經典演算法(二) K Means

2021-08-21 15:47:55 字數 1736 閱讀 4486

簡介

k-means是一種常用的非監督式聚類演算法,其中k代表聚類的類別數量,means代表均值。是基於劃分的聚類演算法,物件之間的相似度使用距離來衡量。

演算法步驟:

1)選取k個資料作為初始聚類中心(可以隨機選取也可以指定);

2)對其餘資料計算與k個聚類中心的距離,並歸類在距離最小的聚類中心所代表的類中;

3)重新計算每個類簇的中心,(計算每個類簇中物件的均值);

4)計算準則函式,重複2)、3)直到準則函式不再發生變化(收斂);

聚類數量k的選取

演算法中聚類的數量需要人為指定,當k值較大時,聚類效果好,但是時間消耗快;當k值較小時,聚類結果單調。k值的大小也與資料量的大小有關係。《大資料》中提到:給定乙個合適的類簇指標,比如平均半徑或直徑,只要我們假設的類簇的數目等於或者高於真實的類簇的數目時,該指標上公升會很緩慢,而一旦試圖得到少於真實數目的類簇時,該指標會急劇上公升。(類簇的直徑是指類簇內任意兩點之間的最大距離。類簇的半徑是指類簇內所有點到類簇中心距離的最大值)

確定聚類的數量通常有兩種方式:

1、手肘法

核心指標為sse(sum of squared errors,誤差平方和),

核心思想為:隨著聚類數量的增大,資料集被劃分的更加精細,每個類簇的聚合程度會逐漸提高,那麼誤差平方和sse就會逐漸變小。當k小於真實類簇的數目時,k值的增大會大幅增加每個簇的聚合程度,sse的下降幅度會很大;當k值大於等於真實類簇數目時,增加k會使類的聚合程度回報迅速變小,則sse的下降幅度減慢,最後隨著k值的增大而逐漸趨於平緩;所以k值和sse的關係圖會有乙個轉折點,即為真實類簇的數目。

2、輪廓係數法

核心指標為輪廓係數(silhouette coefficient),

初始聚類中心的選取

在確定聚類數量之後,需要在資料集中選取k個初始的聚類中心。最簡單的方法是隨機選取,但是其聚類效果不夠理想。還有以下兩種方式可供使用:

1)選擇彼此距離盡可能遠的k個點:首先隨機選擇乙個點作為第乙個初始類簇中心點,然後選擇距離該點最遠的那個點作為第二個初始類簇中心點,然後再選擇距離前兩個點的最近距離最大的點作為第三個初始類簇的中心點,以此類推,直至選出k個初始類簇中心點。

2)先使用層次聚類或者canopy演算法進行聚類,將得到的類簇中心作為初始類簇中心點:

相似性度量

該演算法中資料物件之間的相似性通常採用距離進行度量,最常使用的是歐氏距離,也可以採用曼哈頓距離,巴氏距離等。

效能分析

優點:簡單、高效;對處理大資料集,該演算法相對可伸縮且高效率,它的複雜度大約為o(nkt),其中n為全部物件的數目,k是類簇的數目,t是迭代的次數,(k缺點:僅僅適用於簇的平均值被定義的情況,不適用於涉及分類屬性的資料;需要實現確定類簇的數目k;對初值敏感,不同的初值會產生不同的聚類效果;不適用於發現非凸面形狀或者大小區別非常大的類簇;對於雜訊和孤立點資料敏感,少量的該類資料可以對平均值產生極大的影響。

資料探勘十大經典演算法

最近想看看資料探勘是個什麼東西,因此特別的關注了下,首先看看資料探勘包含哪些演算法,網上找到了十大經典演算法 01.c4.5 是機器學習演算法中的一種分類決策樹演算法,其核心演算法是 id3演算法 02.k means演算法 是一種聚類演算法。03.svm 一種 監督式學習 的方法,廣泛運用於統計分...

資料探勘十大經典演算法

1 c4.5 2 k means 3 svm 4 apriori 5 em 6 pagerank 7 adaboost 8 knn 9 bayes 10 cart 1 c4.5 計算增益率 step1 計算資料集d的熵 單位為位元 info d step2 計算每個屬性的熵info x d step...

十大經典資料探勘演算法

c4.5演算法 機器學習演算法中的乙個分類決策樹演算法 cart 分類與回歸樹 c4.5與cart都是決策樹演算法 id3用資訊增益,c4.5用資訊增益率,cart用gini係數 knn 樸素貝葉斯 bayes 在眾多的分類模型中,應用最為廣泛的兩種分類模型是決策樹模型 decision tree ...