20150916譜聚類學習

2021-07-05 08:05:27 字數 913 閱讀 7931

什麼是譜聚類?

譜聚類的思想是生成乙個帶權無向圖g。g的每個頂點表示乙個樣本,連線頂點的邊表示兩個樣本之間具有相似性,邊的權值即樣本之間的相似度大小。然後對圖進行分割,使得不同組之間的邊的相似度盡可能的小,組內邊的相似度盡可能的大。因此,譜聚類需要解決兩個問題:如何生成帶權無向圖g?如何對圖進行分割?
如何生成帶權無向圖g?

由上述描述可知,g其實是乙個表示樣本間相似度的矩陣。它是乙個對稱矩陣,且對角線元素為0(自己與自己的相似度定義為0),將該相似度矩陣記為w。

計算相似度的公式有很多,可自行選擇。但當樣本較多時,乙個樣本可能和很多樣本點具有相似性,造成矩陣繁瑣龐大。因此,可根據情況保留與該樣本點最為相似的k個值,其餘捨棄,記為0。

如何對圖進行分割?

在此過程中,引入了拉普拉斯矩陣。將圖分割問題轉換成拉普拉斯矩陣求解問題。詳見譜聚類詳解

譜聚類步驟

準備資料,生成相似度矩陣w。矩陣對角線元素全為0。

生成對角矩陣d,除對角線外,其餘元素全為0。對角線上元素是w矩陣對應列或行之和。

生成拉普拉斯矩陣l=d-w。

根據不同的劃分方法,進行操作:

1).mincut或ratiocut的拉普拉斯矩陣l=d-w;

2).normalizedcut的拉普拉斯矩陣l=

d(−1

/2)∗

l∗d(

−1/2

) 3).normalized相似變換:l′

=d(−

1/2)

∗w∗d

(−1/

2)求l的前k個最小特徵值和特徵向量(從小到大排序),或求l』的前k個最大特徵值和特徵向量(從大到小排序)。

將這k個特徵向量組成新的矩陣。將每一行看成乙個新的向量,對其進行k-means聚類。每一行所屬類別,即原有樣本點所屬類別。

機器學習 譜聚類

譜聚類,譜就是指矩陣所有的特徵值的集合 而矩陣指的是由所有資料形成的圖的laplacian矩陣。因此譜聚類就是計算資料的laplacian矩陣的特徵向量,再取特徵向量中的一部分進行kmeans聚類。but,為什麼是laplacian矩陣?為什麼不直接對原始資料kmeans聚類?這也就是譜聚類實現起來...

機器學習 譜聚類

聚類確實是將相似的樣本歸為一類,使同類樣本相似度盡可能高,異類的相似性盡可能低。譜聚類 是採用圖的思想。樣本點作為圖中的點,邊為樣本點之間的相似度。所以譜聚類就是想去邊,去掉邊的權重盡量小,即異類樣本間盡量不同 子圖內邊的權重盡量大,同類樣本盡可能相似。n 知識點 核函式的理解 就是高維空間中的兩個...

譜聚類概述

一 簡述 聚類是對探索性資料分析最廣泛使用的技術,在現在各個科學領域中處理沒有類標的資料時,人們總是想通過確定資料中不同樣本的歸類,來獲取對資料的直觀印象。傳統的聚類方法有很多,像k means,single linkage等,但是k means演算法有些缺點,比如當樣本維度特別大的時候,k mea...