K means聚類 淺學

2021-09-03 07:46:37 字數 1063 閱讀 3139

聚類的定義:聚類分析是指將多個無明顯分類特徵的物件,按照某種相似性分成多個簇(cluster)的分析過程。

聚類分析起源於分類學,在古老的分類學中,人們主要依靠經驗和專業知識來實現分類,很少利用數學工具進行定量的分類。隨著人類科學技術的發展,對分類的要求越來越高,以致有時僅憑經驗和專業知識難以確切地進行分類,於是人們逐漸地把數學工具引用到了分類學中,形成了數值分類學,之後又將多元分析的技術引入到數值分類學形成了聚類分析。聚類分析內容非常豐富,有系統聚類法、有序樣品聚類法、動態聚類法、模糊聚類法、圖論聚類法、聚類預報法等。

k-means 演算法介紹

其基本思想如下:

隨機選取乙個k值,用以確定簇的總數。

在資料集中任意選取k個例項,將他們作為初始的簇的中心。

計算這k個簇中心與其他剩餘例項的簡單歐氏距離(euclidean distance),用這個距離作為例項之間相似性的度量,將與某個簇相似度高的例項劃分到該簇中,成為其成員之一。

使用每個簇中例項來計算該簇的簇中心。

如果計算得到新的簇中心等於上次迭代的簇中心,終止演算法過程。否則,用新的簇中心作為簇中心並重複步驟3~5。

k-means演算法僅支援簡單的歐式距離和曼哈頓距離。

d is

tanc

e(a−

b)=(

x1−x

2)2+

(y1−

y2)2

distance(a-b) =\sqrt

distan

ce(a

−b)=

(x1−

x2)2

+(y1

−y2)

2​其中 a、b為兩個物件;x1、y1為物件a的屬性;x2、y2為物件b的屬性

其侷限性:

k值的選取也會直接影響聚類結果,最優聚類的k值應與樣本資料本身的結構資訊相吻合,而這種結構資訊是很難去掌握,因此選取最優k值是非常困難的。

k-means是區域性最優的,容易受到初始質心的影響;比如在下圖中,因選擇初始質心不恰當而造成次優的聚類結果(sse較大)

K Means聚類演算法

k means聚類演算法 intergret kmeans演算法的基本思想是初始隨機給定k個簇中心,按照最鄰近原則把待分類樣本點分到各個簇。然後按平均法重新計算各個簇的質心,從而確定新的簇心。一直迭代,直到簇心的移動距離小於某個給定的值。k means聚類演算法主要分為三個步驟 1 第一步是為待聚類...

聚類演算法 K means

演算法接受引數 k 然後將事先輸入的n個資料物件劃分為 k個聚類以便使得所獲得的聚類滿足 同一聚類中的物件相似度較高 而不同聚類中的物件相似度較小。聚類相似度是利用各聚類中物件的均值所獲得乙個 中心物件 引力中心 來進行計算的。k means演算法是最為經典的基於劃分的聚類方法,是十大經典資料探勘演...

模糊kmeans聚類

首先介紹乙個,fuzzykmeans演算法的主要思想 模糊均值聚類 fcm 即眾所周知的模糊isodata,是用隸屬度確定每個資料點屬於某個聚類的程度的一種聚類演算法。1973年,bezdek提出了該演算法,作為早期硬均值聚類 hcm 方法的一種改進。fcm把 n 個向量 xi i 1,2,n 分為...