在sklearn中,聚類模型有:
k-means
affinity propagation
mean-shift
spectral culstering
ward hierarchical clustering
agglomerative clustering
dbscan
gaussian mixtures
birch
由於聚類問題是無監督學習,很難對結果進行測評,所以一開始就就根據資料特點擊擇合適的模型非常重要。下面對各個模型作一番總結,以便日後需要用時可以根據具體的資料情況來選擇對應的模型。
k-means 需要設定類別的數目,可擴充套件性比較強,但是由於計算原理比較簡單(只是計算點之間的距離),所以只能應用於一些比較general的分類目的,適合於每個類別的數量差不多,並且不能有太多的類別的資料集。
mean-shift 計算的是平面幾何距離,可以有很多類別而且類別的數目可以不均勻。
spectral clustering 需要給定類別數量,適合於少類別的資料集,類別量可以不均勻,它計算的是圖距離。
ward hierarchical clustering 需要給定類別數量,可以用於大資料集,即類別數量多,類別樣本多,計算的是幾何距離。
agglomerative clustering 需要給定類別數量,可以用於大資料集,即類別數量多,類別樣本多,計算的非歐幾里德距離。
dbscan 需要給定相鄰樣本定的距離,可以適合用於資料量超大的資料集,類別量可以不平衡。
gaussian mixtures 有很多需要定義的引數,有利於密度計算。
birch 可以用於大資料集,有異常值刪除,計算的是點之間的歐幾里德距離。
sklearn實戰之kmeans 聚類
本篇部落格只做個人對kmeans演算法 的案例展示 常規的導包 from ipython.core.interactiveshell import interactiveshell interactiveshell.ast node interactive all import numpy as n...
sklearn機器學習 聚類演算法K Means
n init k均值演算法將在不同質心種子下執行的次數。就慣性而言,最終結果將是n init個連續執行的最佳輸出。max iter 單次執行的k均值演算法的最大迭代次數。tol 預設 1e 4,關於frobenius範數的相對容差,該範數表示兩個連續迭代的聚類中心的差異,以宣告收斂。precompu...
關於聚類(Clustering)
聚類即物以類聚,他是為了實現將資料按照某一標準 相似度 將整個資料集分為若干子集 簇 最終的分類結果要盡量保證組內相似度盡可能大,組間相似度盡可能小。聚類是典型的無監督學習 unsupervised learning 它與分類問題最明顯的區別就是分類問題有事先的標註,而聚類的分組是完全靠自己學習得來...