核聚類與支援向量聚類
聚類是資料探勘中用來發現資料分布和隱含模式的一項重要技術
[1]。作為一種常見的資料分析工具和無監督機器學習方法,聚類的目的是把資料集合分成若干類(或簇),使得每個類中的資料之間最大限度地相似,而不同類中的資料最大程度地不同。根據聚類演算法所採用的基本思想,大致可以將它們分為五種
[2],即劃分聚類、層次聚類、基於密度的聚類、基於網格的聚類和基於模型的聚類。目前對聚類演算法的研究正在不斷深入,其中核聚類演算法和譜聚類演算法是近年來受到廣泛關注的兩種演算法
[3]。
核聚類方法的主要思想是通過乙個非線性對映,將輸入空間中的資料點對映到高維特徵空間中,並選取合適的
mercer
核函式代替非線性對映的內積,在特徵空間中進行聚類
。該方法是普適的,它比經典的聚類方法有較大的改進。它通過非線性對映增加了資料點線性可分的概率,即能較好地分辨、提取並放大有用的特徵,從而實現更為準確的聚類,演算法收斂速度也較快。在經典聚類演算法失效的情況下,核聚類演算法常常能得到較好的聚類結果
[4]。
支援向量聚類(
support vector clustering, svc
)
屬於核聚類的一種,它以支援向量機(
support vector machine, svm
)為工具進行聚類
[5]。它是
ben-hur
等在基於高斯核的
svdd
(support vector domain description
)演算法基礎上進一步發展起來的無監督非引數型的聚類演算法
[6]。
它的基本思想是:利用高斯核,將資料空間中的資料點對映到乙個高維的特徵空間中。再在特徵空間中尋找乙個能包圍所有資料點象的半徑最小的球,將這個球映回到資料空間,則得到了包含所有資料點的等值線集。這些等值線就是簇的邊界。每一條閉合等值線包圍的點屬於同乙個簇
[7, 8]
。svc
演算法主要分為兩個階段:svc
訓練階段和聚類分配階段。
其中
svc訓練階段包括高斯核寬度係數的確定、核矩陣的計算、
lagrange
乘子的計算、支援向量的選取和高維特徵空間中特徵球半徑的計算。聚類分配階段首先生成鄰接矩陣,然後根據鄰接矩陣進行聚類分配
[9]。
svc演算法具有兩大顯著優勢:能產生任意形狀的簇邊界;能分析雜訊資料點且能分離相互交疊的簇。這是許多聚類演算法無法做到的。但
svc演算法仍存在兩個瓶頸:
lagrange
乘子的計算和鄰接矩陣的計算。相對而言,後者需要消耗的計算時間遠比前者多
[9]。因此很多新的
svc演算法都旨在提高鄰接矩陣的計算效率
參考文獻
[1] xu r, wunsch d. survey of clustering algorithms. ieee transaction on neural networks, 2005, 16(3): 645-678.
[2] han j, kamber m. data mining: concepts and techniques, second edition. morgan kaufmann, san francisco, 2006.
[3] filippone m, camastra f, masulli f, rovetta s. a survey of kernel and spectral methods for clustering. pattern recognition, 2008, 41(1): 176-190.
[4]
張莉,周偉達,焦李成
. 核聚類演算法
. 計算機學報
, 2002, 25(6): 587-590.
[5] burges c j c. a tutorial on support vector machines for pattern recognition. data mining and knowledge discovery, 1998, 2(2): 121-167.
[6] tax d m j, duin r p w. support vector domain description. pattern recognition letters, 1999, 20(11-13): 1191-1199.
[7] ben-hur a, horn d, siegelmann h t, vapnik v. support vector clustering. journal of machine learning research, 2001, 2(12): 125-137.
[8] scholkopf b, williamson r, smola a, shawe-taylor j, platt j. support vector method for novelty detection. advances in neural information processing system 12. 2000: 582-588.
[9]
呂常魁,姜澄宇,王寧生
. 一種支援向量聚類的快速演算法
. 華南理工大學學報
. 2005, 33(1): 6-9.
[10] lee j, lee d. an improved cluster labeling method for support vector clustering. ieee transactions on pattern analysis and machine intelligence. 2005, 27(3): 461-464.
[11] camastra f, verri a. a novel kernel method for clustering. ieee transactions on pattern analysis and machine intelligence. 2005, 27(5):801-805.
聚類與常見聚類方法
2.層次聚類 hiecarchical clustering 3.密度聚類 density based clustering 4.參考 k均值演算法是屬於劃分的聚類方法,k均值演算法將樣本分為k類,是通過最小化簇內距離 平方誤差 來實現的。e i 1n x c i x ui 22e sum n su...
聚類之層次聚類 基於劃分的聚類(
目錄 一層次聚類 層次聚類的原理及分類 層次聚類的流程 層次聚類的優缺點 二劃分聚類法k means kmeans演算法的原理 k均值的優缺點及分類 k means與dbscan的區別 k means注意問題 三基於密度的聚類 dbscan的概念 簇的生成原理及過程 根據資料點的密度分為三類點 db...
k means聚類,密度聚類,層次聚類優缺點
k means 優點 1,簡單,易於理解和實現 2,時間複雜度低 缺點 1,需要對均值給出定義,2,需要指定要聚類的數目 3,一些過大的異常值會帶來很大影響 4,演算法對初始選值敏感 5,適合球形聚類 層次聚類 優點 1,距離和規則的相似度容易定義,限制少 2,不需要預先制定聚類數 3,可以發現類的...