k-means演算法是最簡單的一種聚類演算法。演算法的目的是使各個樣本與所在類均值的誤差平方和達到最小(這也是評價k-means演算法最後聚類效果的評價標準)
k-means聚類演算法的一般步驟:
初始化。輸入基因表達矩陣作為物件集x,輸入指定聚類類數n,並在x中隨機選取n個物件作為初始聚類中心。設定迭代中止條件,比如最大迴圈次數或者聚類中心收斂誤差容限。
進行迭代。根據相似度準則將資料物件分配到最接近的聚類中心,從而形成一類。初始化隸屬度矩陣。
更新聚類中心。然後以每一類的平均向量作為新的聚類中心,重新分配資料物件。
反覆執行第二步和第三步直至滿足中止條件。
舉乙個簡單的例子來說明問題:
設有一組資料集x1=(2,1),x2=(1,3),x3=(6,7),x4=(4,7)
(1)選取聚類中心,該中心可以任意選取,也可以通過直方圖進行選取,還可以通過取前2個值進行選取。我們選擇兩個聚類中心。
(2)計算每乙個樣本值到聚類中心的距離;並劃分新的聚類中心;
評價標準:
假設有m個資料來源,c個聚類中心。µc為聚類中心。該公式的意思也就是將每個類中的資料與每個聚類中心做差的平方和,j最小,意味著分割的效果最好。
採用誤差平方和準則函式判斷聚類是否合理,不合理則修改分類。迴圈進行判斷、修改直至達到演算法終止條件。參考資料clcclear
ticrgb= imread ('test5.jpg'); %讀入像
img=rgb2gray(rgb);
[m,n]=size(img);
subplot(2,2,1),imshow(img);title(' 圖一 原影象')
subplot(2,2,2),imhist(img);title(' 圖二 原影象的灰度直方圖')
hold off;
img=double(img);
for i=1:200
c1(1)=25;
c2(1)=125;
c3(1)=200;%選擇三個初始聚類中心
r=abs(img-c1(i));
g=abs(img-c2(i));
b=abs(img-c3(i));%計算各畫素灰度與聚類中心的距離
r_g=r-g;
g_b=g-b;
r_b=r-b;
n_r=find(r_g<=0&r_b<=0);%尋找最小的聚類中心
n_g=find(r_g>0&g_b<=0);%尋找中間的乙個聚類中心
n_b=find(g_b>0&r_b>0);%尋找最大的聚類中心
i=i+1;
c1(i)=sum(img(n_r))/length(n_r);%將所有低灰度求和取平均,作為下乙個低灰度中心
c2(i)=sum(img(n_g))/length(n_g);%將所有低灰度求和取平均,作為下乙個中間灰度中心
c3(i)=sum(img(n_b))/length(n_b);%將所有低灰度求和取平均,作為下乙個高灰度中心
d1(i)=abs(c1(i)-c1(i-1));
d2(i)=abs(c2(i)-c2(i-1));
d3(i)=abs(c3(i)-c3(i-1));
if d1(i)<=0.001&&d2(i)<=0.001&&d3(i)<=0.001
r=c1(i);
g=c2(i);
b=c3(i);
k=i;
break;
endendr g b
img=uint8(img);
img(find(imgr&imgg))=255;
tocsubplot(2,2,3),imshow(img);title(' 圖三 聚類後的影象')
subplot(2,2,4),imhist(img);title(' 圖四 聚類後的影象直方圖')
[1] 史丹福大學關於k-means的講解
[2][3]
c++**:
來自維基百科
k均值聚類演算法
輸入 簇的數目k和包含n個物件的資料庫。輸出 k個簇,使平方誤差準則最小。演算法步驟 1.為每個聚類確定乙個初始聚類中心,這樣就有k 個初始聚類中心。2.將樣本集中的樣本按照最小距離原則分配到最鄰近聚類 3.使用每個聚類中的樣本均值作為新的聚類中心。4.重複步驟2.3直到聚類中心不再變化。5.結束,...
K 均值聚類演算法
from numpy import 建立元組 dataset 與我們所熟悉的矩陣類似,最終我們將獲得n 2的矩陣,filein open home zengxl pycharmprojects test3 機器學習實戰 ch10 testset.txt 是正斜槓 for line in filein...
K 均值聚類演算法
k means演算法是最簡單的一種聚類演算法。演算法的目的是使各個樣本與所在類均值的誤差平方和達到最小 這也是評價k means演算法最後聚類效果的評價標準 k means聚類演算法的一般步驟 初始化。輸入基因表達矩陣作為物件集x,輸入指定聚類類數n,並在x中隨機選取n個物件作為初始聚類中心。設定迭...