聚類是什麼呢?我們都聽說過「物以類聚」,即把「志同道合」的 資料分到一起歸為一類,不同類之間在」志向「上具有較大分歧。舉個栗子,茫茫人生中,我們普通大眾會被god根據緣分進行聚類,緣分好的話,會成為朋友,甚至成為了可以互訴衷腸,」餘生請指教「的男女盤友,那緣分不好的應該是一生從未謀面或者一面之緣或者是如《再見前任3》中那樣成為了最熟悉的陌生人…好像扯遠了。
言歸正傳,用標準的普通話來說,聚類是將資料集中的樣本劃分為若干個通常是不相交的子集,每個子集成為乙個「簇」,用正規的外星人語言來說,對於樣本d=
d =包含
m m
個無標記樣本,每個樣本xi
=' role="presentation">xi=
xi=是乙個
n n
維特徵向量,則聚類演算法將樣本集
d' role="presentation">d
d劃分為
k k
個不相交的簇
' role="presentation">
,其中cl′
∩l′≠
lcl=
∅ cl′
∩l′≠
lcl=
∅且d=
∪kl=
1cl d=∪
l=1k
cl,相應地,用λj
∈ λj∈
表示樣本xj
x
j的「簇標記」,即xj
∈cλj
x j∈
cλj。於是聚類的結果可用包含m個元素的簇標記,記向量λ=
(λ1;
λ2;.
..;λ
m)λ =(
λ1;λ
2;..
.;λm
)。舉個栗子,對於具有
10 10
個樣本的資料集
d d
,其中每個樣本xi
' role="presentation">xix
i含有2 2
維特徵,分成
2' role="presentation">2
2類的結果如下:
聚類通常用來對無標記訓練樣本的學習來揭示資料內在性質及規律,為進一步的資料分析提供基礎,是「無監督學習」中應用最廣的研究方法。那麼問題來了,如何衡量聚類結果的好壞呢?按照什麼樣的「緣分」分類呢?官方的話來說聚類有哪些效能度量以及距離計算方法。
我們通常按照乙個標準來分析聚類之後的結果,簡單來說這個標準是「簇內相似度高,簇間相似度低」,下面我們用一堆「指數」,「係數」來數學化引號裡面的內容,權當填補那些好奇心強盛的孩紙們…
效能度量分類:
聚類效能度量的主要分為兩類,一類是將聚類結果與某個「參考模型」進行比較,成為「外部指標」;另一類是直接考察聚類結果而不用任何參考模型,成為「內部指標」。
外部指標
「外部指標」通常有jaccard係數(jaccard coefficient,簡稱jc)、fm係數(fowlkes and mallows index,簡稱fmi)、rand指數(rand index,簡稱ri)。
[1]. 周志華,機器學習,清華大學出版社,2016
聚類 效能度量
聚類的效能是很難度量,因為它是從資料中學習,並歸類。資料的特性的多方面的,那麼歸類的結果也會是多種。比如蘋果,可以從顏色 紅 綠 也可以從形狀 圓的 橢圓的 歸類,沒有一定的形式。但是我們還是試圖找到一些方法來評價聚類演算法的效能。主要分為外部指標和內部指標兩大類。外部指標是指,將結果與 參考的模型...
聚類中的效能度量
在無監督學習中,訓練樣本的標記是沒有指定的,通過對無標記樣本的訓練來探索資料之間的規律。其中應用最廣的便是聚類,聚類試圖把一群未標記資料劃分為一堆不相交的子集,每個子集叫做 簇 每個簇可能對應於乙個類別標籤,但值得注意的是,這個標籤僅僅是我們人為指定強加的,並不是資料本身就存在這樣的標籤。例如 軟體...
常用聚類以及聚類的度量指標
外部度量 利用條件熵定義的同質性度量 sklearn.metrics.homogeneity score 每乙個聚出的類僅包含乙個類別的程度度量。sklearn.metrics.completeness 每乙個類別被指向相同聚出的類的程度度量。sklearn.metrics.v measure sc...