聚類演算法優缺點總結
k均值演算法
二分k-均值演算法
min單鏈凝聚層次聚類
max全鏈凝聚層次聚類
組平均凝聚層次聚類
ward方法
質心方法
lance-williams公式
dbscan密度聚類
資料具有大小很不同的簇
高維資料
具有離群點的資料
具有高度不規則區域的資料
具有球形簇的資料
具有很不相同的密度的資料
具有少量雜訊點的資料
非歐幾里得資料
歐幾里得資料
具有許多屬性和混合屬性的資料
目標函式:最小化每個點到最近質心的距離的平方,即最小化sse。
優點:(1)原理比較簡單,實現也是很容易,收斂速度快。
(2)區域性最優。
(3)演算法的可解釋度比較強。
(4)主要需要調參的引數僅僅是簇數k。
(5)對處理大資料集,該演算法保持可伸縮性和高效性
(6)當簇接近高斯分布時,它的效果較好
缺點:(1)處理空簇,如果所有點在指派步驟都未分配到某個簇,就會得到空簇
(2)對雜訊和異常點比較敏感
(3)k值不好把握
(4)對於不是凸的資料集比較難收斂
(5)如果各隱含類別的資料不平衡,比如各隱含類別的資料量嚴重失衡,或者各隱含類別的方差不同,則聚類效果不佳
(6)採用迭代方法,得到的結果只是區域性最優
(7)初始聚類中心的選擇
適用的資料型別:
適用於各種資料型別,比較符合隨機分布的歐幾里得資料,但是不能處理非球形簇,不同尺寸和不同密度的簇
目標函式:從二分試驗中選擇具有最小總sse的兩個簇
優點:與k均值相同,而且更有效(初始點的選擇)
缺點:與k均值相同
適用的資料型別:與k均值相同
目標函式:通過選擇較大的資料點作為質心使總sse最小
優點:與k均值相同,而且更有效(初試質心的選擇)
缺點:與k均值相同
適用的資料型別:與k均值相同
目標函式:不同兩個聚類中離得最近的兩個點之間的距離
優點:(1) 不需要指定k值
(2) 產生高質量的聚類
缺點:(1) 對於計算量和儲存需求而言,此演算法是昂貴的
(2) 所有的合併都是最終的,對於雜訊,高維資料,可能造成問題
(3) 缺乏全域性目標函式
(4) 不能很好的處理不同大小簇的能力
適用的資料型別:單鏈技術擅長於處理非橢圓形狀的簇,但對雜訊和離群點很敏感,適用於基本應用需要層次結構,建立一種分類方法,不適用於高維資料,適用於具有少量雜訊並且具有歐幾里得資料
目標函式:不同兩個聚類中離得最遠的兩個點之間的距離
優點:與凝聚層次聚類相同
缺點:與凝聚層次聚類相同
適用的資料型別:與凝聚層次聚類相同
目標函式:不同兩個聚類中所有點對距離的平均值
優點:與凝聚層次聚類相同
缺點:與凝聚層次聚類相同
適用的資料型別:與凝聚層次聚類相同
目標函式:最小化兩個簇合併時導致的平方誤差的增量
優點:與凝聚層次聚類相同
缺點:與凝聚層次聚類相同
適用的資料型別:與凝聚層次聚類相同
目標函式:計算簇質心之間的距離來計算兩個簇之間的鄰近度
優點:(1) 與凝聚層次聚類相同
(2) 倒置的可能性
缺點:與凝聚層次聚類相同
適用的資料型別:與凝聚層次聚類相同
目標函式: 給定eps和minpts來聚類
優點:(1) 相對抗雜訊的
(2) 能夠處理任意形狀和大小的簇,這也是比k均值好的地方
(3) 聚類結果沒有偏倚,而k-means聚類演算法對初始值要求很高
缺點:(1) 不能處理密度變化太大以及聚類間距相差很大的簇,不然效果比較差
(2) 不能處理高維資料
(3) 如果樣本集較大時,聚類收斂時間較長
(4) 需要進行調參,eps和minpts的引數確定
(5) 演算法聚類效果依賴距離公式的選取
適用的資料型別:不能高維,簇密度不能變化太大,聚類間距也不能太大,樣本集合適。
聚類演算法優缺點分析
演算法定義 優點缺點 kmeans 簡單 高效 快速收斂 當簇接近高斯分布式,聚類效果好 必須定義平均值,k事先給定,k的值影響聚類效果,對異常值影響大 dbscan 可以對任意形狀進行聚類,對異常值不敏感 對簇密度相差較大,不均勻的話,聚類效果不好,樣本大,收斂時間長 凝聚式層次聚類 速度快,對異...
KNN演算法,K聚類的優缺點
適用資料範圍 數值型和標稱型 目標變數的結果只在有限目標集中取值,如真與假,標稱型目標變數主要用於分類 優點 簡單,易於理解,易於實現,無需引數估計,無需訓練 對異常值不敏感 個別噪音資料對結果的影響不是很大 適合對稀有事件進行分類 適合於多分類問題 multi modal,物件具有多個類別標籤 k...
k means聚類,密度聚類,層次聚類優缺點
k means 優點 1,簡單,易於理解和實現 2,時間複雜度低 缺點 1,需要對均值給出定義,2,需要指定要聚類的數目 3,一些過大的異常值會帶來很大影響 4,演算法對初始選值敏感 5,適合球形聚類 層次聚類 優點 1,距離和規則的相似度容易定義,限制少 2,不需要預先制定聚類數 3,可以發現類的...