K means聚類演算法

2022-08-27 23:57:07 字數 1186 閱讀 6376

優點:容易實現

缺點:可能收斂到區域性最小值,在大規模資料集上收斂較慢

使用資料型別:數值型資料

k-means演算法實際上就是通過計算不同樣本間的距離來判斷他們的相近關係的,相近的就會放到同乙個類別中去。

1.首先我們需要選擇乙個k值,也就是我們希望把資料分成多少類,這裡k值的選擇對結果的影響很大,ng的課說的選擇方法有兩種一種是elbow method,簡單的說就是根據聚類的結果和k的函式關係判斷k為多少的時候效果最好。另一種則是根據具體的需求確定,比如說進行襯衫尺寸的聚類你可能就會考慮分成三類(l,m,s)等

2.然後我們需要選擇最初的聚類點(或者叫質心),這裡的選擇一般是隨機選擇的,**中的是在資料範圍內隨機選擇,另一種是隨機選擇資料中的點。這些點的選擇會很大程度上影響到最終的結果,也就是說運氣不好的話就到區域性最小值去了。這裡有兩種處理方法,一種是多次取均值,另一種則是後面的改進演算法(bisecting k-means)

3.終於我們開始進入正題了,接下來我們會把資料集中所有的點都計算下與這些質心的距離,把它們分到離它們質心最近的那一類中去。完成後我們則需要將每個簇算出平均值,用這個點作為新的質心。反覆重複這兩步,直到收斂我們就得到了最終的結果。

後記由於對k-means了解頗淺,因此大量參考了網路上的他人經驗,最終選擇用較為熟悉的c語言簡單實現。還有好多不足之處,希望日後能慢慢學習,慢慢進步。

K Means聚類演算法

k means聚類演算法 intergret kmeans演算法的基本思想是初始隨機給定k個簇中心,按照最鄰近原則把待分類樣本點分到各個簇。然後按平均法重新計算各個簇的質心,從而確定新的簇心。一直迭代,直到簇心的移動距離小於某個給定的值。k means聚類演算法主要分為三個步驟 1 第一步是為待聚類...

聚類演算法 K means

演算法接受引數 k 然後將事先輸入的n個資料物件劃分為 k個聚類以便使得所獲得的聚類滿足 同一聚類中的物件相似度較高 而不同聚類中的物件相似度較小。聚類相似度是利用各聚類中物件的均值所獲得乙個 中心物件 引力中心 來進行計算的。k means演算法是最為經典的基於劃分的聚類方法,是十大經典資料探勘演...

k means聚類演算法

說到聚類,得跟分類區別開來,分類是按人為給定的標準將樣本歸到某個類別中去,在機器學習中多是監督學習,也就是訓練樣本要給標籤 正確的類別資訊 而聚類是在某種規則下自動將樣本歸類,在機器學習中是無監督學習,不需要提前給樣本打標籤。k means聚類演算法,就是在某種度量方式下,將樣本自動劃分到k個類別中...