看到了兩篇部落格,感興趣的可以看一下~~
首先看乙個例子(ps:別人的~~)認為x代表一類文件,o代表一類文件,方框代表一類文件,聚成了3個cluster,現在要對聚類的結果進行評價
一、purity(純度)
purity--正確聚類的文件數占總文件的比例
例如上面的例子,purity= ( 5+4+3) / 17 = 0.71 第乙個cluster正確的有5個,第二個cluster正確的有4個,第3個cluster正確的有3個
這個方法計算簡單,值在0~1之間,完全錯誤值為0,完全正確值為1.
二、entropy(熵)
對於乙個聚類i,首先計算
每個聚類的entropy可以表示為
整個聚類劃分的entropy為
例如上面的例子e1=- e2=- e3= 整個聚類劃分的entropy=(6/17)e1+(6/17)e2+(5/17)e3
三、accuracy(準確率)
比較每一條聚類結果是否和真是的結果一致
四、nmi(歸一化互資訊)
互資訊指的是兩個隨機變數之間的關聯程度 如下公式計算
標準互資訊是將互資訊歸一化0~1,通常是除以最大熵
五、ari(調整蘭德指數)
其中c表示實際類別資訊,k表示聚類結果,a表示在c與k中都是同類別的元素對數,b表示在c與k中都是不同類別的元素對數
其中ri越大表示聚類效果準確性越高 同時每個類內的純度越高
為了實現「在聚類結果隨機產生的情況下,指標應該接近零」,調整蘭德係數(adjusted rand index)被提出,它具有更高的區分度:
ari取值範圍為[−1,1],值越大意味著聚類結果與真實情況越吻合。從廣義的角度來講,ari衡量的是兩個資料分布的吻合程度。
這只是幾個指標,聚類結果評價的指標還有很多個。整理**中提到的幾個~~
標籤: 聚類 指標
園齡:1年4個月
粉絲:3
關注:0
+加關注
<
2023年9月
>日一
二三四五
六262728
2930311
2345
6789
1011
1213
1415
1617
1819
2021
2223
2425
2627
2829301
2345
6
聚類的評價指標
我們知道,監督學習的評價指標是準確率 召回率 f1 f f 1 f beta f1 f roc auc等等,但聚類方法在大多數情況下資料是沒有標籤的,這些情況下聚類就不能使用以上的評價指標了。聚類有自己的評價指標,大多數聚類的評價指標是通過緊湊性和可分性來定義的。緊湊性基本上是衡量乙個聚類中的元素彼...
聚類評價指標學習
一般分為 外部 內部 相對,這三種評價指標。正確聚類的樣本數佔總樣本的比例 非常直觀且簡單的計算法方法。即歸一化互資訊,計算公式如下 互資訊指的是兩個隨機變數之間的關聯程度,標準互資訊是將互資訊歸一化0 1。值越高越好。ri是蘭德指數,ari範圍是 1,1 值越大意味著聚類結果與真實情況越吻合。從廣...
ARI聚類效果評價指標
聚類效果有乙個評價指標,ari adjusted rand index 這個指標不考慮你使用的聚類方法,把你的方法當做乙個黑箱,只注重結果。可以說,是乙個十分 功利 的指標。1.rand index 在講ari之前呢,先講述一下ri,也就是rand index,從兩者的名字也可以看出來,這是ari的...