聚類結果的評價指標

2021-08-27 18:05:44 字數 1603 閱讀 6289

看到了兩篇部落格,感興趣的可以看一下~~

首先看乙個例子(ps:別人的~~)認為x代表一類文件,o代表一類文件,方框代表一類文件,聚成了3個cluster,現在要對聚類的結果進行評價

一、purity(純度)

purity--正確聚類的文件數占總文件的比例

例如上面的例子,purity= ( 5+4+3) / 17 = 0.71  第乙個cluster正確的有5個,第二個cluster正確的有4個,第3個cluster正確的有3個

這個方法計算簡單,值在0~1之間,完全錯誤值為0,完全正確值為1.

二、entropy(熵)

對於乙個聚類i,首先計算

每個聚類的entropy可以表示為

整個聚類劃分的entropy為

例如上面的例子e1=-  e2=- e3=  整個聚類劃分的entropy=(6/17)e1+(6/17)e2+(5/17)e3

三、accuracy(準確率)

比較每一條聚類結果是否和真是的結果一致

四、nmi(歸一化互資訊)

互資訊指的是兩個隨機變數之間的關聯程度 如下公式計算

標準互資訊是將互資訊歸一化0~1,通常是除以最大熵

五、ari(調整蘭德指數)

其中c表示實際類別資訊,k表示聚類結果,a表示在c與k中都是同類別的元素對數,b表示在c與k中都是不同類別的元素對數

其中ri越大表示聚類效果準確性越高 同時每個類內的純度越高

為了實現「在聚類結果隨機產生的情況下,指標應該接近零」,調整蘭德係數(adjusted rand index)被提出,它具有更高的區分度:

ari取值範圍為[−1,1],值越大意味著聚類結果與真實情況越吻合。從廣義的角度來講,ari衡量的是兩個資料分布的吻合程度。

這只是幾個指標,聚類結果評價的指標還有很多個。整理**中提到的幾個~~

標籤: 聚類 指標

園齡:1年4個月

粉絲:3

關注:0

+加關注

<

2023年9月

>日一

二三四五

六262728

2930311

2345

6789

1011

1213

1415

1617

1819

2021

2223

2425

2627

2829301

2345

6

聚類的評價指標

我們知道,監督學習的評價指標是準確率 召回率 f1 f f 1 f beta f1 f roc auc等等,但聚類方法在大多數情況下資料是沒有標籤的,這些情況下聚類就不能使用以上的評價指標了。聚類有自己的評價指標,大多數聚類的評價指標是通過緊湊性和可分性來定義的。緊湊性基本上是衡量乙個聚類中的元素彼...

聚類評價指標學習

一般分為 外部 內部 相對,這三種評價指標。正確聚類的樣本數佔總樣本的比例 非常直觀且簡單的計算法方法。即歸一化互資訊,計算公式如下 互資訊指的是兩個隨機變數之間的關聯程度,標準互資訊是將互資訊歸一化0 1。值越高越好。ri是蘭德指數,ari範圍是 1,1 值越大意味著聚類結果與真實情況越吻合。從廣...

ARI聚類效果評價指標

聚類效果有乙個評價指標,ari adjusted rand index 這個指標不考慮你使用的聚類方法,把你的方法當做乙個黑箱,只注重結果。可以說,是乙個十分 功利 的指標。1.rand index 在講ari之前呢,先講述一下ri,也就是rand index,從兩者的名字也可以看出來,這是ari的...