聚類內部指標

2021-08-14 15:32:49 字數 1646 閱讀 4797

基於《understanding of internal clustering validation measures》這篇2010發表在 ieee international conference on data mining 上的文章,做得一些有關於聚類內部指標的學習。

緊湊性:用來衡量簇中的物件有多緊湊,基於方差來評價,方差越小表明越緊湊。此外,還有許多測量方法基於距離(例如最大或平均的成對距離以及最大或平均基於中心距離)來估計聚類緊湊性。

分離度:用來衡量乙個簇和另乙個簇之間有多不同或衡量它們是否是完全分離的。例如:聚類中心之間的成對距離,或者不同簇中的物件之間的成對最小距離被廣泛應用於分離度的測量中。另外,在一些指標中使用基於密度的措施。

然後用11個基於這兩種標準的,而且有著廣泛應用的內部指標演算法來做實驗,最後得出了乙個結論s_dbw演算法最nb!

這11演算法如下表所示:

**中有簡單的描述了一下這些演算法,這部分我直接跳過了,可以自己看一下**,問題不大~

接下來就是做實驗來檢驗這些演算法的優略:

單調性的影響

實驗使用k-means聚類演算法,wellseparated資料集,資料集如下圖所示

得出的實驗結果如下表所示:其中nc是聚類簇數,其中nc=5為真實分類數

前三個演算法都是根據nc的增加,單調遞增或單調遞減,後8個在nc=5處出現最大或最小值。

**中出現了下面一句話

我其實一開始不太理解這句的意思,想的是文章說錯了吧,不是後面的八種演算法峰值點不是更加清楚麼,後來我查了一下維基百科,又自己把前五個圖畫出來了,於是終於懂了,其實就是拐點,這個圖畫出來的形狀手肘的形狀,下面是我再維基百科上面查到的,可以做個參考。

下面是我用table ii 的前五個指標畫得圖,這樣跟便於理解一些~

後面明天更新,網太差~

常用聚類以及聚類的度量指標

外部度量 利用條件熵定義的同質性度量 sklearn.metrics.homogeneity score 每乙個聚出的類僅包含乙個類別的程度度量。sklearn.metrics.completeness 每乙個類別被指向相同聚出的類的程度度量。sklearn.metrics.v measure sc...

聚類演算法衡量指標

簇內不相似度 計算樣本i到同簇其它樣本的平均距離為ai a i越小,表示樣本i越應 該被聚類到該簇,簇c中的所有樣本的a i的均值被稱為簇c的 簇不相似度 簇間不相似度 計算樣本i到其它簇c j的所有樣本的平均距離b ij,b i min b i越大,表示樣本i越不屬於其它簇。輪廓係數 si 值越接...

聚類的評價指標

我們知道,監督學習的評價指標是準確率 召回率 f1 f f 1 f beta f1 f roc auc等等,但聚類方法在大多數情況下資料是沒有標籤的,這些情況下聚類就不能使用以上的評價指標了。聚類有自己的評價指標,大多數聚類的評價指標是通過緊湊性和可分性來定義的。緊湊性基本上是衡量乙個聚類中的元素彼...