什麼是譜聚類?
譜聚類的思想是生成乙個帶權無向圖g。g的每個頂點表示乙個樣本,連線頂點的邊表示兩個樣本之間具有相似性,邊的權值即樣本之間的相似度大小。然後對圖進行分割,使得不同組之間的邊的相似度盡可能的小,組內邊的相似度盡可能的大。因此,譜聚類需要解決兩個問題:如何生成帶權無向圖g?如何對圖進行分割?
如何生成帶權無向圖g?
由上述描述可知,g其實是乙個表示樣本間相似度的矩陣。它是乙個對稱矩陣,且對角線元素為0(自己與自己的相似度定義為0),將該相似度矩陣記為w。
計算相似度的公式有很多,可自行選擇。但當樣本較多時,乙個樣本可能和很多樣本點具有相似性,造成矩陣繁瑣龐大。因此,可根據情況保留與該樣本點最為相似的k個值,其餘捨棄,記為0。
如何對圖進行分割?
在此過程中,引入了拉普拉斯矩陣。將圖分割問題轉換成拉普拉斯矩陣求解問題。詳見譜聚類詳解
譜聚類步驟
準備資料,生成相似度矩陣w。矩陣對角線元素全為0。
生成對角矩陣d,除對角線外,其餘元素全為0。對角線上元素是w矩陣對應列或行之和。
生成拉普拉斯矩陣l=d-w。
根據不同的劃分方法,進行操作:
1).mincut或ratiocut的拉普拉斯矩陣l=d-w;
2).normalizedcut的拉普拉斯矩陣l=
d(−1
/2)∗
l∗d(
−1/2
) 3).normalized相似變換:l′
=d(−
1/2)
∗w∗d
(−1/
2)求l的前k個最小特徵值和特徵向量(從小到大排序),或求l』的前k個最大特徵值和特徵向量(從大到小排序)。
將這k個特徵向量組成新的矩陣。將每一行看成乙個新的向量,對其進行k-means聚類。每一行所屬類別,即原有樣本點所屬類別。
機器學習 譜聚類
譜聚類,譜就是指矩陣所有的特徵值的集合 而矩陣指的是由所有資料形成的圖的laplacian矩陣。因此譜聚類就是計算資料的laplacian矩陣的特徵向量,再取特徵向量中的一部分進行kmeans聚類。but,為什麼是laplacian矩陣?為什麼不直接對原始資料kmeans聚類?這也就是譜聚類實現起來...
機器學習 譜聚類
聚類確實是將相似的樣本歸為一類,使同類樣本相似度盡可能高,異類的相似性盡可能低。譜聚類 是採用圖的思想。樣本點作為圖中的點,邊為樣本點之間的相似度。所以譜聚類就是想去邊,去掉邊的權重盡量小,即異類樣本間盡量不同 子圖內邊的權重盡量大,同類樣本盡可能相似。n 知識點 核函式的理解 就是高維空間中的兩個...
譜聚類概述
一 簡述 聚類是對探索性資料分析最廣泛使用的技術,在現在各個科學領域中處理沒有類標的資料時,人們總是想通過確定資料中不同樣本的歸類,來獲取對資料的直觀印象。傳統的聚類方法有很多,像k means,single linkage等,但是k means演算法有些缺點,比如當樣本維度特別大的時候,k mea...