無監督聚類演算法

2021-09-02 22:19:45 字數 1050 閱讀 3517

劃分聚類

k-means 聚類: k-means演算法,也被稱為k-平均或k-均值,是一種廣泛使用的聚類演算法, 或者成為其他聚類演算法的基礎。k-means 對初值敏感,可以使用 k-mediods聚類(k-中值聚類),選擇較好的聚類初值:k-means++演算法, 不同與k-means演算法隨機選擇聚類中心,k-means++演算法按距離加權來初始化聚類中心。 這樣初始化的各個聚類中心不一定是距離最遠(因為是每次是以概率的來選聚類中心),但肯定不近。

總結:優點:

是解決聚類問題的一種經典演算法,簡單、快速。

對處理大資料集,該演算法保持可伸縮性和高效率。

當簇近似為高斯分布時,它的效果較好。

缺點:必須事先給出k值,而且對初值敏感,對於不同的初值可能產生不同的結果

不適合發現非凸形狀的簇或者大小差別很大的簇

層次聚類:

1. 凝聚的層次聚類

一種自底向上的策略,首先將每個物件作為乙個簇,然 後合併這些原子簇為越來越大的簇,直到某個終結條件 被滿足。agnes (agglomerative nesting)演算法最初將每個對 象作為乙個簇,然後這些簇根據某些準則被一步步 地合併。兩個簇間的距離由這兩個不同簇中距離最 近的資料點對的相似度來確定;聚類的合併過程反 復進行直到所有的物件最終滿足簇數目。

2. **的層次聚類**的層次聚類

採用自頂向下的策略,它首先將所有物件臵於乙個簇中, 然後逐漸細分為越來越小的簇,直到達到了某個終結條件。diana (divisive analysis)演算法是上述過程的反過程,屬於**的層次聚類,首先將所有的物件初始化到乙個簇中,然後根據一些原則(比如最大的歐式距離),將該簇分類。直到到達使用者指定的簇數目或者兩個簇之間的距離超過了某個閾值。

密度聚類:

密度聚類方法的指導思想是,只要樣本點的密度 大於某閾值,則將該樣本新增到最近的簇中。例如dbscan演算法。

譜聚類:

譜聚類是一種基於圖論的聚類方法,通過對樣本資料的拉普拉斯矩陣的特徵向量 進行聚類,從而達到對樣本資料聚類的目的。

無監督學習 聚類 K means聚類演算法

無監督學習 聚類 k means聚類演算法 以k為引數,把n個物件分為k個簇,使簇內具有較高相似度,簇間相似度較低 1.隨機選擇k個點作為初始聚類中心 2.根據剩下點與聚類中心的距離 預設就是歐氏距離 歸為最近的簇 3.對每個簇,計算所有點的均值作為新聚類中心 4.重複2 3直至聚類中心不變 31省...

無監督學習 聚類

聚類是針對給定的樣本,根據據他們特徵的相似度或者距離,將其歸併到若干個 類 或 簇 的資料分析問題。乙個類是樣本的乙個子集。直觀上,相似的樣本在相同的類,不相似的樣本分散在不同的類。目的是通過得到的 類 或 簇 來發現資料的特點或者對資料進行處理,在資料探勘 模式識別等領域有著廣泛的應用。屬於無監督...

ML演算法 無監督學習 K means聚類

這一系列文章將介紹各種機器學習演算法,部分演算法涉及公示推導,我的部落格中有另乙個板塊介紹基於python和r實現各種機器學習演算法,詳情見置頂的目錄。聚類演算法是一種無監督的機器學習演算法,通過距離測度實現樣本點的歸類,演算法的最終目的是使得聚簇內部樣本點相似度最大,聚簇間樣本點相似度最小,常見的...