評估聚類模型

2021-10-01 19:04:54 字數 1060 閱讀 8370

輪廓係數

聚類評估:輪廓係數(silhouette coefficient):

si接近1,則說明樣本i聚類合理。

si接近-1,則說明樣本i更應該分類到另外的簇。

若si近似為0,則說明樣本i在兩個簇的邊界上。

silhouette_score 返回的是平均輪廓係數

# 評估聚類模型

import numpy as np

from sklearn.metrics import silhouette_score

from sklearn import datasets

from sklearn.cluster import kmeans

from sklearn.datasets import make_blobs

​# generate feature matrix

features, _ = make_blobs(n_samples =

1000

, n_features =10,

centers =2,

cluster_std =

0.5,

shuffle =

true

, random_state =1)

​# cluster data using k-means to predict classes

# 使用kmeans 對資料進行聚類,**分類

model = kmeans(n_clusters=

2, random_state=1)

.fit(features)

​# get predicted classes

# 獲取**分類

target_predicted = model.labels_

​# evaluate model 評估模型 輪廓係數

silhouette_score(features, target_predicted)

0.8916265564072142

聚類模型ari 機器學習 聚類分析的模型評估

一 聚類演算法中的距離 1.單個樣本之間的距離 余弦距離 在聚類分析中,一般需要對資料進行標準化,因為聚類資料會受資料量綱的影響。在sklearn庫中,可呼叫如下方法進行標準化 1 from sklearn.preprocessing importstandardscaler2 data stand...

機器學習入門研究(十八) 聚類的模型評估

目錄 輪廓係數 sklearn中的api 在機器學習入門研究 十七 instacart market使用者分類中我們通過sklearn中的kmeans來將使用者分成了三類人,那麼我們怎麼評估這個模型的好與不好呢?從上圖中,我們知道聚類最後將這些點分成了2類,聚類最後的結果就是 內部的距離最小化,外部...

dbscan聚類演算法例項 聚類效能評估 輪廓係數

當文字類別未知時,可以選擇輪廓係數作為聚類效能的評估指標。輪廓係數取值範圍為 1,1 取值越接近1則說明聚類效能越好,相反,取值越接近 1則說明聚類效能越差。則針對某個樣本的輪廓係數s為 聚類總的輪廓係數sc為 sc 詳細內容參考文獻 這裡我們用鳶尾花資料集舉例baiziyu sklearn 鳶尾花...