proclus是基於投影的子空間聚類演算法,搜尋策略為自頂向下。演算法基於中心點思想,適合球形簇資料集,採用曼哈頓距離度量物件的相似性。
演算法一共分為以下三個階段:
初始階段,選擇中心點超集;
迭代階段,確定每乙個中心點的特徵維度,通過對聚類結果進行分析,並不斷迭代替換差的中心點,得到最優中心點集;
優化階段,對中心點維度進行優化,改善聚類質量;
輸入:資料集合d
dd,簇個數k
kk,常數a
aa,常數b
bb輸出:中心點集mcmc
mc從資料集中隨機選擇a∗k
a*ka∗
k(aa
a是常數)個資料構成初始中心點超集mc′
mc'mc
′;使用貪心演算法從mc′
mc'mc
′中選擇大小為b∗k
b*kb∗
k(bb
b為常數,且b
b< a)的中心點集mcmc mc;2.1 初始化mcmc mc為空集2.2 從mc′ mc'mc ′中隨機選擇乙個樣本m mm加入mcmc mc(同時將m mm從mc』 mc』mc 』中移除) 2.3 計算mc′ mc'mc ′中每個點與mcmc mc中離該點最近的點的距離dis disdi s,選擇dis disdi s最大的點n nn,將n nn加入mcmc mc中(同時將n nn從mc』 mc』mc 』中移除) 2.4 重複2.3直到mcmc mc中樣本點數為b∗k b*kb∗ k輸入:資料集d dd(大小為n nn),中心點集mcmc mc,簇平均維度l ll,簇個數k kk輸出:最終的中心點集m mm,mcmc mc中每個中心點對應的維度 從m cmc mc中選擇乙個樣本i ii計算mcmc mc中其他樣本點與m的最小距離imi ndis ti_ imindi st(曼哈頓距離) 計算資料集中i區域性近鄰點集合ine ighb or i_in eigh bor (資料集d dd中離i ii的曼哈頓距離小於imi ndis ti_ imindi st的樣本點即為i的區域性近鄰點) 計算i ne ighb or i_in eigh bor 與i ii在每個特徵維度的平均距離xij x_xi j(i表示中心點,j jj表示對應維度),計算所有維度維度均值y iy_i yi計算xij的標準差σi= ∑j=1 d(xi j−yi )2d− 1σ_i=\sqrt ^ -y_i)}^2}} σi=d− 1∑j= 1d( xij −yi )2 對於每個特徵維度計算zij =xij −yiσ iz_=\frac-y_i} zij=σ ixi j−y i,對zij z_zi j進行排序,選取zij z_zi j最小的k∗l k*lk∗ l(最小有兩維特徵)個特徵對應的維度,作為候選中心點m mm的子空間 重複1~6,為mcmc mc中所有中心點找到對應子空間 從m cmc mc中選擇k kk個中心點,通過計算資料集中其他樣本點與中心點在中心點對應的子空間的曼哈頓截斷距離(manhattan segmental distance),進行樣本點的分配,使用mc中其他中心點替換掉mba dm_ mbad (在聚類過長中分配到的資料點個數小於nk∗ c\frac*c kn∗ c,c是乙個常數,一般設為0.1)中心點 曼哈頓截斷距離: d d( x1,x 2)=∑ i∈d∣ x1,i −x2, i∣∣d ∣d_d(x_1,x_2)=\frac}|x_-x_|} dd(x1 ,x2 )=∣ d∣∑i ∈d∣ x1,i −x2 ,i∣ (dd d表示中心點對應的子空間) 輸入:最優的中心點集m,迭代階段最後得到的簇分配結果 \lbrace c_i,c_2....c_k\rbrace 輸出:聚類結果 丟棄m mm中每個中心點都包含的維度 使用迭代階段的方法進行子空間選擇,但是與迭代階段不同的是,使用的不是區域性近鄰點而是迭代階段輸出的每個中心點的聚類結果 m中的中心點會得到新子空間,基於新的子空間進行資料的重新分配 [1]aggarwal c c , wolf j l , yu p s , et al. fast algorithms for projected clustering[j]. sigmod, 1999, 28(2):61-72. 自適應的軟子空間聚類演算法 陳黎飛郭躬德 姜青山 期刊名稱 軟體學報 年卷 期 2010 021 010 摘要 軟子空間聚類是高維資料分析的一種重要手段 現有演算法通常需要使用者 事先設定一些全域性的關鍵引數 且沒有考慮子空間的優化 提出了乙個新的軟子空 間聚類優化目標函式 在最小化子空間簇類的簇內... 解讀文獻 sparse subspace clustering cvpr09 現有的子空間聚類方法,可分為六大類 本人感覺大都很陌生,迭代的 k subspaces,fitting a subspace to each cluster.統計的 mixtures of probabilistic pc... clara 大型應用中的聚類方法 kaufmann and rousseeuw in 1990 不考慮整個資料集,而是選擇資料的一小部分作為樣本.clara演算法的步驟 它從資料集中抽取多個樣本集,對每個樣本集使用pam,並以最好的聚類作為輸出 clara 演算法的步驟 1 for i 1 to v...軟子空間聚類 自適應的軟子空間聚類演算法
稀疏子空間聚類
文字挖掘之聚類演算法之CLARA聚類演算法