乙個簇中只包含乙個類別的樣本,則滿足均一性;其實也可以認為就是正確率(每個聚簇中正確分類的樣本數占該聚簇總樣本數的比例和):
同類別樣本被歸類到相同簇中,則滿足完整性;每個聚簇中正確分類的樣本數占該型別的總樣本數比例的和:
均一性和完整性的加權平均:
rand index(蘭德指數)(ri),ri取值範圍為[0,1],值越大意味著聚類結果與真實情況越吻合:
其中c表示實際類別資訊,k表示聚類結果,a表示在c與k中都是同類別的元素對數,b表示在c與k中都是不同類別的元素對數,c_2^n 表示資料集中可以組成的對數
調整蘭德係數(ari,adjusted rnd index),ari取值範圍[-1,1],值越大,表示聚類結果和真實情況越吻合。從廣義的角度來將,ari是衡量兩個資料分布的吻合程度的。
調整互資訊(ami,adjusted mutual information),類似ari,內部使用資訊熵:
簇內不相似度:計算樣本i到同簇其它樣本的平均距離為ai;ai越小,表示樣本i越應該被聚類到該簇,簇c中的所有樣本的ai的均值被稱為簇c的簇不相似度。
簇間不相似度:計算樣本i到其它簇cj的所有樣本的平均距離bij,bi=min;bi越大,表示樣本i越不屬於其它簇。
輪廓係數:si值越接近1表示樣本i聚類越合理,越接近-1,表示樣本i應該分類到另外的簇中,近似為0,表示樣本i應該在邊界上;所有樣本的si的均值被成為聚類結果的輪廓係數。
聚類演算法衡量指標
簇內不相似度 計算樣本i到同簇其它樣本的平均距離為ai a i越小,表示樣本i越應 該被聚類到該簇,簇c中的所有樣本的a i的均值被稱為簇c的 簇不相似度 簇間不相似度 計算樣本i到其它簇c j的所有樣本的平均距離b ij,b i min b i越大,表示樣本i越不屬於其它簇。輪廓係數 si 值越接...
08 聚類演算法 聚類演算法的衡量指標
07 聚類演算法 案例三 k means演算法和mini batch k means演算法效果評估 混淆矩陣 均一性 完整性 v measure 調整蘭德係數 ari 調整互資訊 ami 輪廓係數 silhouette 1 均一性 均一性 乙個簇中只包含乙個類別的樣本,則滿足均一性 其實也可以認為就...
聚類演算法之K means演算法與聚類演算法衡量指標
原文出處 聚類就是按照某個特定標準 如距離準則 把乙個資料集分割成不同的類或簇,使得同乙個簇內的資料物件的相似性盡可能大,同時不在同乙個簇中的資料物件的差異性也盡可能地大。即聚類後同一類的資料盡可能聚集到一起,不同資料盡量分離。聚類演算法屬於無監督學習,即事先不會給出標記資訊,通過對無標記樣本的學習...