20150916譜聚類學習

什麼是譜聚類？

譜聚類的思想是生成乙個帶權無向圖g。g的每個頂點表示乙個樣本，連線頂點的邊表示兩個樣本之間具有相似性，邊的權值即樣本之間的相似度大小。然後對圖進行分割，使得不同組之間的邊的相似度盡可能的小，組內邊的相似度盡可能的大。因此，譜聚類需要解決兩個問題：如何生成帶權無向圖g？如何對圖進行分割？

如何生成帶權無向圖g？

由上述描述可知，g其實是乙個表示樣本間相似度的矩陣。它是乙個對稱矩陣，且對角線元素為0（自己與自己的相似度定義為0），將該相似度矩陣記為w。

計算相似度的公式有很多，可自行選擇。但當樣本較多時，乙個樣本可能和很多樣本點具有相似性，造成矩陣繁瑣龐大。因此，可根據情況保留與該樣本點最為相似的k個值，其餘捨棄，記為0。

如何對圖進行分割？

在此過程中，引入了拉普拉斯矩陣。將圖分割問題轉換成拉普拉斯矩陣求解問題。詳見譜聚類詳解

譜聚類步驟

準備資料，生成相似度矩陣w。矩陣對角線元素全為0。

生成對角矩陣d，除對角線外，其餘元素全為0。對角線上元素是w矩陣對應列或行之和。

生成拉普拉斯矩陣l=d-w。

根據不同的劃分方法，進行操作：

1).mincut或ratiocut的拉普拉斯矩陣l=d-w；

2).normalizedcut的拉普拉斯矩陣l=

d(−1

/2)∗

l∗d(

−1/2

) 3).normalized相似變換：l′

=d(−

1/2)

∗w∗d

(−1/

2)求l的前k個最小特徵值和特徵向量（從小到大排序），或求l』的前k個最大特徵值和特徵向量（從大到小排序）。

將這k個特徵向量組成新的矩陣。將每一行看成乙個新的向量，對其進行k-means聚類。每一行所屬類別，即原有樣本點所屬類別。

機器學習譜聚類

譜聚類，譜就是指矩陣所有的特徵值的集合而矩陣指的是由所有資料形成的圖的laplacian矩陣。因此譜聚類就是計算資料的laplacian矩陣的特徵向量，再取特徵向量中的一部分進行kmeans聚類。but，為什麼是laplacian矩陣？為什麼不直接對原始資料kmeans聚類？這也就是譜聚類實現起來...

機器學習譜聚類

聚類確實是將相似的樣本歸為一類，使同類樣本相似度盡可能高，異類的相似性盡可能低。譜聚類是採用圖的思想。樣本點作為圖中的點，邊為樣本點之間的相似度。所以譜聚類就是想去邊，去掉邊的權重盡量小，即異類樣本間盡量不同子圖內邊的權重盡量大，同類樣本盡可能相似。n 知識點核函式的理解就是高維空間中的兩個...

譜聚類概述

一簡述聚類是對探索性資料分析最廣泛使用的技術，在現在各個科學領域中處理沒有類標的資料時，人們總是想通過確定資料中不同樣本的歸類，來獲取對資料的直觀印象。傳統的聚類方法有很多，像k means，single linkage等，但是k means演算法有些缺點，比如當樣本維度特別大的時候，k mea...

20150916譜聚類學習

機器學習 譜聚類

機器學習 譜聚類

譜聚類概述

相關推薦

機器學習譜聚類

機器學習譜聚類