我們知道,監督學習的評價指標是準確率、召回率、f1、
fβf_1、f_\beta
f1、fβ
、roc-auc等等,但聚類方法在大多數情況下資料是沒有標籤的,這些情況下聚類就不能使用以上的評價指標了。
聚類有自己的評價指標,大多數聚類的評價指標是通過緊湊性和可分性來定義的。緊湊性基本上是衡量乙個聚類中的元素彼此之間的距離,而可分性表示不同聚類之間的距離,總的來說聚類的評價指標有以下三個型別:
1、外部指標:這是處理有標籤資料時使用的評分,可以說監督學習的評價指標都是外部指標。
2、內部指標:使用資料來衡量資料和結構之間的吻合度。
3、相對指標:通過對比,表明兩個聚類結構中哪乙個在某種意義上更好。
adjusted rand index是外部指標的一種,其得分區間是[−1
,1][-1,1]
[−1,1]
。在計算adjusted rand index前,我們要先計算一下rand index。
1、rand index(蘭德係數)
rand index是adjusted rand index的前身,rand index因為懲罰力度不夠,導致聚類得分普遍很高,因此才有adjusted rand index。
r i=
a+b(
n2)ri = \frac n\\ 2\\ \end }
ri=(n2
)a+
ba:表示在真實標籤上在同乙個分類,聚類後也在同乙個分類的對數。
b:表示在真實標籤上不在同乙個分類,聚類後也不在同乙個分類的對數。
( n2
)\begin n\\ 2\\ \end
(n2
):表示所有資料的對數,在排列組合中的表示方式是cn2
c^2_n
cn2
。例如:
假設有資料(a,b,c,d,e),在真實標籤中(a,b)為一類,(c,d,e)為另一類,而聚類後(a,b,c)為一類,(d,e)為另一類,那麼2、adjusted rand index的計算a =c
22+c
22=2
a = c^2_2 + c^2_2 = 2
a=c22
+c22
=2b=c
21∗c
21=4
b = c^1_2 * c^1_2 = 4
b=c21
∗c21
=4(n2
)=c5
2=10\begin n\\ 2\\ \end = c^2_5 = 10
(n2)=
c52
=10ri=
2+410
=0.6
ri = \frac = 0.6
ri=102
+4=0.6
a ri
=ri−
expe
cted
inde
xmax
(ri)
−exp
ecte
dind
exari = \frac
ari=ma
x(ri
)−ex
pect
edin
dexr
i−ex
pect
edin
dex
ari的原始公式是這樣子的:
。計算資料點的輪廓係數:
s i=
bi−a
imax
(ai,
bi)s_i = \frac
si=ma
x(ai
,bi
)bi
−ai
a是同乙個聚類中到其它樣本的平均距離;
b是與它距離最近的不同的聚類的樣本的平均距離。
聚類的輪廓係數:
s =∑
i=1n
sins = \frac_s_i}
s=n∑i=
1ns
i
輪廓係數的缺點:
1、輪廓係數不適合評價緊湊的環形的資料聚類;
2、當模型是dbscan時,不適合使用輪廓係數作為評價指標。
聚類評價指標學習
一般分為 外部 內部 相對,這三種評價指標。正確聚類的樣本數佔總樣本的比例 非常直觀且簡單的計算法方法。即歸一化互資訊,計算公式如下 互資訊指的是兩個隨機變數之間的關聯程度,標準互資訊是將互資訊歸一化0 1。值越高越好。ri是蘭德指數,ari範圍是 1,1 值越大意味著聚類結果與真實情況越吻合。從廣...
聚類結果的評價指標
看到了兩篇部落格,感興趣的可以看一下 首先看乙個例子 ps 別人的 認為x代表一類文件,o代表一類文件,方框代表一類文件,聚成了3個cluster,現在要對聚類的結果進行評價 一 purity 純度 purity 正確聚類的文件數占總文件的比例 例如上面的例子,purity 5 4 3 17 0.7...
ARI聚類效果評價指標
聚類效果有乙個評價指標,ari adjusted rand index 這個指標不考慮你使用的聚類方法,把你的方法當做乙個黑箱,只注重結果。可以說,是乙個十分 功利 的指標。1.rand index 在講ari之前呢,先講述一下ri,也就是rand index,從兩者的名字也可以看出來,這是ari的...