ARI聚類效果評價指標

2021-07-23 05:20:43 字數 1273 閱讀 4676

聚類效果有乙個評價指標,ari(adjusted rand index)。這個指標不考慮你使用的聚類方法,把你的方法當做乙個黑箱,只注重結果。可以說,是乙個十分「功利」的指標。

1.rand index

在講ari之前呢,先講述一下ri,也就是rand index,從兩者的名字也可以看出來,這是ari的祖宗版。

這裡,我們解釋一下a,b,c,d分別代表什麼。a呢就是說應該在一類,你最後聚類到一類的數量,b呢就是不應該在一類 ,你最後聚類結果也沒把他們聚類在一起的數量。c和d那麼就是應該在一起而被分開的和不應該在一起而被迫住在一起的。畢竟強扭的瓜不甜,c和d固然是錯誤的。所以從r的表示式中可以看出,我們只認為a和b是對的,這樣能夠保證r在0到1之間,而且,聚類越準確,指標越接近於1.

這裡有乙個關鍵性的問題,就是什麼叫數量?你怎麼去計算?準確的說,是配對的數量。比如說a是應該在一起而真的幸福的在一起了的數量,這顯然就應該像人類一樣按照小夫妻數量計算,但是我們的樣本可不管一夫一妻制,任意選兩個就是乙個配對,所以,就是n(n-1)/2這樣來計算,也就是組合數,n個當中選兩個的選法。同時我們看到,分母其實是所有配對的總和,所以,我們最後可以寫成這樣:

有了先前ri的感性理解之後,我們再來講一下ari。

ri有乙個缺點,就是懲罰力度不夠,換句話說,大家普遍得分比較高,沒什麼區分度,遍地80分。這樣的話,往往是考試的制度不合適,於是就誕生出了ari,這個指標相對於ri就很有區分度了。

具體的公式就是下面這樣的。

我們來分析一下,

後面這乙個部分

這乙個部分最難理解。

假設配對矩陣是這樣的,顯然,我們共有n(n-1)/2個配對方法。我們在行方向計算出可能取到的配對書,在列方向計算可能取到的配對數,相乘以後,除以總的配對數。這就是a的期望了。

這裡呢,這個期望就像是乙個benchmark,用來衡量距離用的。

聚類的評價指標

我們知道,監督學習的評價指標是準確率 召回率 f1 f f 1 f beta f1 f roc auc等等,但聚類方法在大多數情況下資料是沒有標籤的,這些情況下聚類就不能使用以上的評價指標了。聚類有自己的評價指標,大多數聚類的評價指標是通過緊湊性和可分性來定義的。緊湊性基本上是衡量乙個聚類中的元素彼...

聚類評價指標學習

一般分為 外部 內部 相對,這三種評價指標。正確聚類的樣本數佔總樣本的比例 非常直觀且簡單的計算法方法。即歸一化互資訊,計算公式如下 互資訊指的是兩個隨機變數之間的關聯程度,標準互資訊是將互資訊歸一化0 1。值越高越好。ri是蘭德指數,ari範圍是 1,1 值越大意味著聚類結果與真實情況越吻合。從廣...

聚類結果的評價指標

看到了兩篇部落格,感興趣的可以看一下 首先看乙個例子 ps 別人的 認為x代表一類文件,o代表一類文件,方框代表一類文件,聚成了3個cluster,現在要對聚類的結果進行評價 一 purity 純度 purity 正確聚類的文件數占總文件的比例 例如上面的例子,purity 5 4 3 17 0.7...