聚類評估演算法 輪廓係數

2021-08-20 00:08:11 字數 763 閱讀 7351

輪廓係數(silhouette coefficient),是聚類效果好壞的一種評價方式。最早由 peter j. rousseeuw 在 1986 提出。它結合內聚度和分離度兩種因素。可以用來在相同原始資料的基礎上用來評價不同演算法、或者演算法不同執行方式對聚類結果所產生的影響。

方法:

1,計算樣本i到同簇其他樣本的平均距離ai。ai 越小,說明樣本i越應該被聚類到該簇。將ai 稱為樣本i的簇內不相似度

簇c中所有樣本的a i 均值稱為簇c的簇不相似度。

2,計算樣本i到其他某簇cj 的所有樣本的平均距離bij,稱為樣本i與簇cj 的不相似度。定義為樣本i的簇間不相似度:bi =min

bi越大,說明樣本i越不屬於其他簇。

3,根據樣本i的簇內不相似度a i 和簇間不相似度b i ,定義樣本i的輪廓係數

4,判斷:

si接近1,則說明樣本i聚類合理;

si接近-1,則說明樣本i更應該分類到另外的簇;

若si 近似為0,則說明樣本i在兩個簇的邊界上。

所有樣本的s i 的均值稱為聚類結果的輪廓係數,是該聚類是否合理、有效的度量。

dbscan聚類演算法例項 聚類效能評估 輪廓係數

當文字類別未知時,可以選擇輪廓係數作為聚類效能的評估指標。輪廓係數取值範圍為 1,1 取值越接近1則說明聚類效能越好,相反,取值越接近 1則說明聚類效能越差。則針對某個樣本的輪廓係數s為 聚類總的輪廓係數sc為 sc 詳細內容參考文獻 這裡我們用鳶尾花資料集舉例baiziyu sklearn 鳶尾花...

評估聚類模型

輪廓係數 聚類評估 輪廓係數 silhouette coefficient si接近1,則說明樣本i聚類合理。si接近 1,則說明樣本i更應該分類到另外的簇。若si近似為0,則說明樣本i在兩個簇的邊界上。silhouette score 返回的是平均輪廓係數 評估聚類模型 import numpy ...

評估演算法的效能

我們要想去度量乙個演算法的效能,有多種方法,比如度量演算法的執行時間,統計指令,度量演算法所使用的記憶體等方法,下面我們乙個乙個的來解讀一下 度量演算法的執行時間的一種方法是,利用計算機自帶的乙個計時器,來獲取乙個迴圈所執行的執行時間,我們通過連續幾個迴圈的執行時間從而找出每乙個迴圈之間數字和時間的...