一、 針對問題
高位資料聚類存在兩個問題:
高緯資料在距離計算上,任意兩點的距離都可能極為相近,導致難以將相似點和不相似點區分出來;
高緯資料集的簇可能存在於不同的維度集合裡。
二、 文章的靈感
子空間聚類的推進:
維數約減和特徵選擇背後的思路是:裁剪掉不重要的維度,實現從高維向低維空間的改變,以利於往後的聚類等工作。這樣的維度裁剪過程,極可能導致資訊的缺失;正是這個問題促進了子空間聚類的發展,如:
(1) 任意定向子空間聚類(arbitrary oriented subspace),比如orclus和投影k均值聚類;特點為所產生的維度都是初始維度的線性組合。
(2) 常規子空間聚類,比如part和subcad;做法是在初始維度中選擇若干維度成子空間組,再進行聚類。
子空間聚類的缺陷:統一為簇所在的子空間的各個維度分配相等的非零權值,為其他維度(non-cluster dimensions)賦權值為0。均勻賦權值導致了乙個問題:如何選擇恰當的維度?舉個例子,比如有乙個100維的資料集,已知各個簇嵌入在其中的50維子空間中,然而不同維度實際上對聚類的貢獻程度不見得完全相同,各維度之間甚至可能是相互關聯的,為子空間各個維度賦相同的權值是否合適?進一步說,而在未知子空間維數的情況下,我們如何知道合適的子空間是多少維?
為了解決以上的問題,在子空間聚類中引入模糊聚類和lac的思想,形成軟子空間的聚類fsc。通過密度稀疏來為各個維度分配不同的權值,解決了子空間維度的不夠靈活的維度選擇問題、並為所有維度分配合適的貢獻值,而不是均勻的權值。
三、 fsc模型
模型定義
(1) 資料集
(2) d是原始資料集維度數
(3) k為聚類簇數
(4) 給定k個中心點 (最初隨機,往後通過em迭代更新的)
(5) k個d維的權重向量
(6) alpha是維度權重的模糊係數,同fcm裡的m一致要求取值大於1。
(7) 在資料集d中找出點x作為cj,要求符合(注意cj所含點的數量可能不為1)
(8) 目標函式:
限制條件為:
解析(1) 求導,得到對中心點的更新:
(2) 拉格朗日乘子更新權重:
那麼得到權重:
防除零處理,增加偏差項
四、 實驗細節
不贅述。
五、 附
軟子空間聚類 自適應的軟子空間聚類演算法
自適應的軟子空間聚類演算法 陳黎飛郭躬德 姜青山 期刊名稱 軟體學報 年卷 期 2010 021 010 摘要 軟子空間聚類是高維資料分析的一種重要手段 現有演算法通常需要使用者 事先設定一些全域性的關鍵引數 且沒有考慮子空間的優化 提出了乙個新的軟子空 間聚類優化目標函式 在最小化子空間簇類的簇內...
聚類 簡述高維資料聚類
concept 聚類其實就是講乙個物件的集合分為由相似物件組成的多個類的過程。聚類與分類的區別在於,聚類劃分的類是不確定的,需要自身進行相似性比較,並且確定劃分的類。一般而言,對於聚類演算法的要求還是比較高的。而對於高維資料聚類的聚類演算法主要有兩種 子空間聚類 subspace clusterin...
高維資料聚類方法
1 一般資料聚類方法 聚類是乙個無監督的分類,它沒有任何先驗知識可用.典型的聚類過程主要包括資料 或稱之為樣本或模式 準備 特徵選擇和特徵提取 接近度計算 聚類 或分組 對聚類結果進行有效性評估等步驟.聚類過程 1 資料準備 包括特徵標準化和降維.2 特徵選擇 從最初的特徵中選擇最有效的特徵,並將其...