聚類演算法小結

2021-06-27 23:46:11 字數 937 閱讀 2305

一、聚類:聚類也稱之為自動分類,是一種無監督的學習方法。演算法的原則是基於度量資料物件之間的相似性或相異性,將資料物件集劃分為多個簇;相比較於分類技術,聚類只需要較少的專家知識(領域知識),就可以自動發掘資料集中的群組。

二、基本的聚類方法包括:

1、劃分方法:該方法通常基於距離使用迭代重定位技術,通過將乙個物件移入另外乙個簇並更新簇心,典型的演算法有k-均值演算法和k-中心點演算法(二者的主要區別在於計算簇心的方法不同),其中k-均值演算法的解對雜訊和初始簇心比較敏感,k-中心點演算法彌補了前者對雜訊敏感的缺點,但二者的可伸縮性都不是太好、並且需要初始化簇的數量。

2、層次方法:該方法立求把資料集劃分成不同層次上的組群,形成「樹」狀結構。典型的方法包括:凝聚層次聚類(自底向上的方法)和**層次聚類,一圖勝千言:

3、基於密度的聚類方法:劃分和層次方法都是通過距離度量確定資料物件間的相似性,通過發現的模式都為球狀簇,而對於其他形狀簇,都無法識別該簇的凸區域,基於密度的方法正是克服了以上方法的這一缺點。基本方法有基於高密度連通區域的聚類和基於密度分布函式的聚類。該方法首先隨機初始化乙個簇心p(核心物件),(1)在sigma半徑範圍內搜尋p的臨近物件,若其臨近物件數大於閥值,則確定該初始化物件作為簇c的簇心並將臨近物件加入簇c中,(2)對c中的每個物件重複步驟1,直到所有物件都完成簇的分類。基於高密度連通區域聚類的具體方法如下:

本文也是在閱讀《資料探勘概念與技術》一書基礎上,結合自身使用情況做的一點總結,如有錯誤,敬請指正。

聚類演算法 近鄰聚類演算法

time is always too short for those who need it,but for those who love,it lasts forever.dracula untold 近鄰聚類法同樣是一種基於距離閾值的聚類演算法。coding utf 8 近鄰聚類演算法的pyth...

聚類演算法 層次聚類演算法

層次聚類演算法 hierarchical clustering method 又稱為系統聚類法 分級聚類法。層次聚類演算法又分為兩種形式 凝聚層次聚類 首先將每個物件作為乙個簇,然後合併這些原子簇為越來越大的簇,直到某個終結條件被滿足。層次聚類 首先將所有物件置於乙個簇中,然後逐漸細分為越來越小的簇...

聚類演算法 什麼是聚類

聚類分析或聚類演算法就是通過一些方法或手段使資料集集聚成不同的類別,或者叫 簇。簇內部每乙個單位都是相似的。簇與簇之間都是不相似的。但是聚類其實是一種思想,它不是一種具體的方法。這裡千萬不要搞混。但是可以實現聚類的演算法有很多種。我們通常就使用這些演算法來實現聚類的。比如 k means就是最為經典...