k-means:
優點:1,簡單,易於理解和實現;
2,時間複雜度低
缺點:1,需要對均值給出定義,
2,需要指定要聚類的數目;
3,一些過大的異常值會帶來很大影響;
4,演算法對初始選值敏感;
5,適合球形聚類
層次聚類:
優點:1,距離和規則的相似度容易定義,限制少;
2,不需要預先制定聚類數;
3,可以發現類的層次關係;
4,可以聚類成其它形狀
缺點:1,計算複雜度太高;
2,奇異值也能產生很大影響;
3,演算法很可能聚類成鏈狀
密度聚類
優點:1, 可以對任意形狀的稠密資料集進行聚類,相對的,k-means之類的聚類演算法一般只適用於凸資料集。
2、 可以在聚類的同時發現異常點,對資料集中的異常點不敏感。
3、聚類結果沒有偏倚,相對的,k-means之類的聚類演算法初始值對聚類結果有很大影響。
缺點:1、如果樣本集的密度不均勻、聚類間距差相差很大時,聚類質量較差,這時用dbscan聚類一般不適合。
2、如果樣本集較大時,聚類收斂時間較長,此時可以對搜尋最近鄰時建立的kd樹或者球樹進行規模限制來改進。
3、 調參相對於傳統的k-means之類的聚類演算法稍複雜,主要需要對距離閾值ϵ,鄰域樣本數閾值minpts聯合調參,不同的引數組合對最後的聚類效果有較大影響。
聚類總結(中) 密度聚類
密度聚類是一種基於密度的聚類方法,基於密度的聚類方法的主要思想是尋找被低密度區域分離的高密度區域。密度度量 乙個點的區域性密度有不同的度量方式 1.畫個圈,數圈內其他點個數是一種方法。2.用圈內其他點和給點半徑的比值的高斯概率密度形式,對距離核心點距離近的給大權重。3.計算圈內距離最小的前n個點到核...
聚類演算法 層次聚類演算法
層次聚類演算法 hierarchical clustering method 又稱為系統聚類法 分級聚類法。層次聚類演算法又分為兩種形式 凝聚層次聚類 首先將每個物件作為乙個簇,然後合併這些原子簇為越來越大的簇,直到某個終結條件被滿足。層次聚類 首先將所有物件置於乙個簇中,然後逐漸細分為越來越小的簇...
聚類和EM演算法 密度聚類
模型原型 class sklearn.cluster.dbscan eps 0.5,min samples 5,metric euclidean algorithm auto leaf size 30,p none,random state none 引數 eps 引數,用於確定鄰域大小 min s...