演算法定義
優點缺點
kmeans
簡單、高效、快速收斂、當簇接近高斯分布式,聚類效果好
必須定義平均值,k事先給定,k的值影響聚類效果,對異常值影響大
dbscan
可以對任意形狀進行聚類,對異常值不敏感
對簇密度相差較大,不均勻的話,聚類效果不好,樣本大,收斂時間長
凝聚式層次聚類
速度快,對異常值影響不大,使用記憶體小
對高斯簇聚類效果不好
em演算法
基於圖使用降維技術,適合高維空間。對聚類類別少準確率高。
對引數敏感,不適合簇裡面的樣本點少
演算法名稱
函式k均值聚類演算法
from sklearn.cluster import kmeans
小批量k均值演算法
from sklearn.cluster import minibatchkmeans
birch層次聚類
ffrom sklearn.cluster import birch
.em演算法
from sklearn.mixture import gaussianmixture
dbscan演算法
from sklearn.cluster import dbscan
optics演算法
from sklearn.cluster import optics
mean shift演算法
from sklearn.cluster import meanshift
譜聚類演算法
from sklearn.cluster import spectralclustering
[refers](
聚類演算法優缺點總結
聚類演算法優缺點總結 k均值演算法 二分k 均值演算法 min單鏈凝聚層次聚類 max全鏈凝聚層次聚類 組平均凝聚層次聚類 ward方法 質心方法 lance williams公式 dbscan密度聚類 資料具有大小很不同的簇 高維資料 具有離群點的資料 具有高度不規則區域的資料 具有球形簇的資料 ...
KNN演算法,K聚類的優缺點
適用資料範圍 數值型和標稱型 目標變數的結果只在有限目標集中取值,如真與假,標稱型目標變數主要用於分類 優點 簡單,易於理解,易於實現,無需引數估計,無需訓練 對異常值不敏感 個別噪音資料對結果的影響不是很大 適合對稀有事件進行分類 適合於多分類問題 multi modal,物件具有多個類別標籤 k...
k means聚類,密度聚類,層次聚類優缺點
k means 優點 1,簡單,易於理解和實現 2,時間複雜度低 缺點 1,需要對均值給出定義,2,需要指定要聚類的數目 3,一些過大的異常值會帶來很大影響 4,演算法對初始選值敏感 5,適合球形聚類 層次聚類 優點 1,距離和規則的相似度容易定義,限制少 2,不需要預先制定聚類數 3,可以發現類的...