高維資料聚類(資料分布稀疏)和分布任意形狀(dbscan可以實現,但是需要指定超引數)的聚類是傳統聚類演算法比較難做的。譜聚類可以很好的解決這兩個問題,一般而言,可以概括為降維->聚類兩個過程:1、降維,保留高維空間的區域性幾何結構,將本真結構投影到低維空間中,這樣就直接解決了任意資料分布聚類的問題,同時降維也有利於解決高維度的問題。譜聚類是通過拉普拉斯降維來實現的;2、聚類,通過傳統聚類演算法,譜聚類用的是k-means,在低維空間中實現聚類。下面重點講一下拉普拉斯降維。
拉普拉斯降維(laplacian eigenmaps),可以歸類到流形學習,思想是相互之間有關係的點,降維之後足夠接近;沒有關係的點,降維之後足夠遠,相互之間的關係可以用knn來構建weight矩陣(每個資料點,只保留最近的k個資料點的距離,其他為0)。公式化一下:
其中 按照基本的線性代數知識,
目標變為最小化:
實際上,距離
很好理解,每個對角線元素代表乙個feature的優化結果,求和就是秩。
拉普拉斯矩陣一般還要做歸一化處理,也就是為了避免離群點,weight矩陣用度矩陣歸一化,一般而言,有兩種思路:
另外一種理解思路是用圖劃分的角度理解,圖劃分就是把圖劃分稱為很多子group,可以說對應了聚類結果,具體過程網上有很多,這裡不再補充,這裡說說我上面的目標怎麼跟圖劃分聯絡起來的
如果 那麼拉普拉斯降維後,子空間每乙個維度代表了不同角度的圖劃分(每次都劃分為兩個子圖)
ratiocut和n-cut對應拉普拉斯矩陣的歸一化方法。
從拉普拉斯到譜聚類
譜聚類 spectral clustering 是廣泛使用的聚類演算法,比起傳統的k means演算法,譜聚類對資料分布的適應性更強,聚類效果也很優秀,同時聚類的計算量也小很多,更加難能可貴的是實現起來也不複雜。在處理實際的聚類問題時,個人認為譜聚類是應該首先考慮的幾種演算法之一。下面我們就對譜聚類...
最全傅利葉變換和拉普拉斯變換公式總結
n at 1 a 1an n t n at 1 a 1an n t f t t t0 f t0 t t0 f t0 t t0 f t t t0 f t0 t t0 f t0 t t0 f t n t t0 i 0n 1 i ni f i t0 n i t t0 f t n t t0 i 0n 1 i...
傅利葉變換公式 拉普拉斯變換和傅利葉變換的簡單介紹
大家有沒有好奇過,在電路分析的時候,為什麼電容的頻域等效模型是1 sc,電感的模型是sl。想要了解這個,就要把頻域的不同變化,和背後的原理想清楚。三角級數 也是傅利葉級數。是頻域分析的基礎 為什麼叫做三角級數 三角 因為假設了所有訊號,都可以使用這乙個完備正交基來解釋。因為他是三角函式的形式 級數 ...