簇內不相似度
:計算樣本i到同簇其它樣本的平均距離為ai;a
i越小,表示樣本i越應 該被聚類到該簇,簇c中的所有樣本的a
i的均值被稱為簇c的
簇不相似度
。簇間不相似度
:計算樣本i到其它簇c
j的所有樣本的平均距離b
ij, b
i=min;b
i越大,表示樣本i越不屬於其它簇。
輪廓係數:si
值越接近1表示樣本i聚類越合理,越接近-1,表示樣本i應該分類到 另外的簇中,近似為0,表示樣本i應該在邊界上;所有樣本的s
i的均值被成為聚
類結果的輪廓係數
以下均需要標記
乙個簇中只包含乙個類別的樣本,則滿足均一性;其實也可以認為就是正確率(每個 聚簇中正確分類的樣本數占該聚簇總樣本數的比例和)
同類別樣本被歸類到相同簇中,則滿足完整性;每個聚簇中正確分類的樣本數占該
型別的總樣本數比例的和
均一性和完整性的加權平均
聚類演算法的衡量指標
乙個簇中只包含乙個類別的樣本,則滿足均一性 其實也可以認為就是正確率 每個聚簇中正確分類的樣本數占該聚簇總樣本數的比例和 同類別樣本被歸類到相同簇中,則滿足完整性 每個聚簇中正確分類的樣本數占該型別的總樣本數比例的和 均一性和完整性的加權平均 rand index 蘭德指數 ri ri取值範圍為 0...
08 聚類演算法 聚類演算法的衡量指標
07 聚類演算法 案例三 k means演算法和mini batch k means演算法效果評估 混淆矩陣 均一性 完整性 v measure 調整蘭德係數 ari 調整互資訊 ami 輪廓係數 silhouette 1 均一性 均一性 乙個簇中只包含乙個類別的樣本,則滿足均一性 其實也可以認為就...
聚類演算法之K means演算法與聚類演算法衡量指標
原文出處 聚類就是按照某個特定標準 如距離準則 把乙個資料集分割成不同的類或簇,使得同乙個簇內的資料物件的相似性盡可能大,同時不在同乙個簇中的資料物件的差異性也盡可能地大。即聚類後同一類的資料盡可能聚集到一起,不同資料盡量分離。聚類演算法屬於無監督學習,即事先不會給出標記資訊,通過對無標記樣本的學習...