聚類確實是將相似的樣本歸為一類,使同類樣本相似度盡可能高,異類的相似性盡可能低。..
譜聚類:是採用圖的思想。樣本點作為圖中的點,邊為樣本點之間的相似度。
所以譜聚類就是想去邊,去掉邊的權重盡量小,即異類樣本間盡量不同;子圖內邊的權重盡量大,同類樣本盡可能相似。
【n】知識點:
核函式的理解:就是高維空間中的兩個引數的內積。
高斯核中的頻寬是人為設定的引數。可用高斯核函式來衡量相似性
拉普拉斯矩陣詳情見上鏈結,注意性質。
機器學習 譜聚類
譜聚類,譜就是指矩陣所有的特徵值的集合 而矩陣指的是由所有資料形成的圖的laplacian矩陣。因此譜聚類就是計算資料的laplacian矩陣的特徵向量,再取特徵向量中的一部分進行kmeans聚類。but,為什麼是laplacian矩陣?為什麼不直接對原始資料kmeans聚類?這也就是譜聚類實現起來...
20150916譜聚類學習
什麼是譜聚類?譜聚類的思想是生成乙個帶權無向圖g。g的每個頂點表示乙個樣本,連線頂點的邊表示兩個樣本之間具有相似性,邊的權值即樣本之間的相似度大小。然後對圖進行分割,使得不同組之間的邊的相似度盡可能的小,組內邊的相似度盡可能的大。因此,譜聚類需要解決兩個問題 如何生成帶權無向圖g?如何對圖進行分割?...
機器學習 譜聚類從初始到應用
一 前述 譜聚類 spectral clustering 是一種基於圖論的聚類方法,主要思想是把所有的資料看做空間中的點,這些點之間可以用邊連線起來。距離較遠 或者相似度較低 的兩個點之間的邊權重值較低,而距離較近 或者相似度較高 的兩個點之間的邊權重值較高,通過對所有資料點組成的圖進行切圖,讓切圖...