聚類評價指標學習

2022-05-09 03:24:07 字數 1056 閱讀 2000

一般分為:外部、內部、相對,這三種評價指標。

正確聚類的樣本數佔總樣本的比例:

非常直觀且簡單的計算法方法。

即歸一化互資訊,計算公式如下:

互資訊指的是兩個隨機變數之間的關聯程度,標準互資訊是將互資訊歸一化0~1。值越高越好。

ri是蘭德指數,ari範圍是[−1,1],值越大意味著聚類結果與真實情況越吻合。從廣義的角度來講,ari衡量的是兩個資料分布的吻合程度。值越高越好。

④調整蘭德指數(adjusted rand index, ari):看不明白計算過程,值越高越好;

cp計算 每乙個類  各點到聚類中心的平均距離;  cp越低意味著類內聚類距離越近;但沒有考慮類間效果。

sp計算 各聚類中心兩兩之間平均距離; sp越高意味類間聚類距離越遠;但沒有考慮類內效果。

db計算 任意兩類別的類內距離平均距離(cp)之和除以兩聚類中心距離 求最大值

db越小意味著類內距離越小 同時類間距離越大 

缺點:因使用歐式距離 所以對於環狀分布  聚類評測很差

dvi計算 任意兩個簇元素的最短距離(類間)除以任意簇中的最大距離(類內)

dvi越大意味著類間距離越大 同時類內距離越小

缺點:對離散點的聚類測評很高、對環狀分布測評效果差 

聚類的評價指標

我們知道,監督學習的評價指標是準確率 召回率 f1 f f 1 f beta f1 f roc auc等等,但聚類方法在大多數情況下資料是沒有標籤的,這些情況下聚類就不能使用以上的評價指標了。聚類有自己的評價指標,大多數聚類的評價指標是通過緊湊性和可分性來定義的。緊湊性基本上是衡量乙個聚類中的元素彼...

機器學習 分類,回歸,聚類 評價指標

機器學習 分類,回歸,聚類 評價指標 分類問題 roc 接收操作者特徵曲線 最早用於雷達訊號檢測領域,用於區分訊號與雜訊。現用來評價模型的 能力,roc曲線基於混淆矩陣得出的。兩個指標 真陽率 tpr 為縱座標與假陽率 fpr 為橫座標 tpr越高,同時fpr越低 即roc曲線越陡 模型效能越好 a...

ARI聚類效果評價指標

聚類效果有乙個評價指標,ari adjusted rand index 這個指標不考慮你使用的聚類方法,把你的方法當做乙個黑箱,只注重結果。可以說,是乙個十分 功利 的指標。1.rand index 在講ari之前呢,先講述一下ri,也就是rand index,從兩者的名字也可以看出來,這是ari的...