輪廓係數
聚類評估:輪廓係數(silhouette coefficient):
si接近1,則說明樣本i聚類合理。
si接近-1,則說明樣本i更應該分類到另外的簇。
若si近似為0,則說明樣本i在兩個簇的邊界上。
silhouette_score 返回的是平均輪廓係數
# 評估聚類模型
import numpy as np
from sklearn.metrics import silhouette_score
from sklearn import datasets
from sklearn.cluster import kmeans
from sklearn.datasets import make_blobs
# generate feature matrix
features, _ = make_blobs(n_samples =
1000
, n_features =10,
centers =2,
cluster_std =
0.5,
shuffle =
true
, random_state =1)
# cluster data using k-means to predict classes
# 使用kmeans 對資料進行聚類,**分類
model = kmeans(n_clusters=
2, random_state=1)
.fit(features)
# get predicted classes
# 獲取**分類
target_predicted = model.labels_
# evaluate model 評估模型 輪廓係數
silhouette_score(features, target_predicted)
0.8916265564072142
聚類模型ari 機器學習 聚類分析的模型評估
一 聚類演算法中的距離 1.單個樣本之間的距離 余弦距離 在聚類分析中,一般需要對資料進行標準化,因為聚類資料會受資料量綱的影響。在sklearn庫中,可呼叫如下方法進行標準化 1 from sklearn.preprocessing importstandardscaler2 data stand...
機器學習入門研究(十八) 聚類的模型評估
目錄 輪廓係數 sklearn中的api 在機器學習入門研究 十七 instacart market使用者分類中我們通過sklearn中的kmeans來將使用者分成了三類人,那麼我們怎麼評估這個模型的好與不好呢?從上圖中,我們知道聚類最後將這些點分成了2類,聚類最後的結果就是 內部的距離最小化,外部...
dbscan聚類演算法例項 聚類效能評估 輪廓係數
當文字類別未知時,可以選擇輪廓係數作為聚類效能的評估指標。輪廓係數取值範圍為 1,1 取值越接近1則說明聚類效能越好,相反,取值越接近 1則說明聚類效能越差。則針對某個樣本的輪廓係數s為 聚類總的輪廓係數sc為 sc 詳細內容參考文獻 這裡我們用鳶尾花資料集舉例baiziyu sklearn 鳶尾花...