在無監督學習中,訓練樣本的標記是沒有指定的,通過對無標記樣本的訓練來探索資料之間的規律。其中應用最廣的便是聚類,聚類試圖把一群未標記資料劃分為一堆不相交的子集,每個子集叫做」簇「,每個簇可能對應於乙個類別標籤,但值得注意的是,這個標籤僅僅是我們人為指定強加的,並不是資料本身就存在這樣的標籤。例如**軟體對**的曲分或者流派進行聚類,可以劃分為傷感,輕快等一系列標籤,但是這個曲分只是人為加上的,**本身並不知道自己被分為了什麼曲分。
那聚類該如何做效能度量呢?在機器學習中我們都需要對任務進行評價以便於進行下一步的優化。分類和回歸都有自己的評估準則,包括準確率,精確度,召回率等,聚類中的效能度量也同樣有這樣的指標來評價聚類的效能。
考慮聚類的任務的目的,容易想到就是」物以類聚「,即達到」簇內相似度高「,」簇間相似度低「的效能效果。具體的效能度量有兩類,一類是外部指標,與某個專家給定的參考模型進行比對,另一類是內部指標,只考慮自己聚類之後的結果。
外部指標需要乙個參考模型,這個參考模型通常是由專家給定的,或者是公認的參考模型比如公開資料集。對於聚類的結果所形成的簇集合(這裡叫做簇c),對於參考模型的簇集合(這裡叫做d),對這兩個模型結果的樣本進行兩兩配對比較,可得到如下顯而易見的資料。
a = 在c中屬於相同簇且在d中屬於相同簇的樣本對的數量。對這裡的abcd,不考慮乙個樣本屬於多個簇的情況,因此每個樣本都只能出現在乙個集合中,所以a+b+c+d=m(m-1)/2。(m為樣本總數)b = 在c中屬於相同簇且在d中屬於不同簇的樣本對的數量。
c = 在c中屬於不同簇且在d中屬於相同簇的樣本對的數量。
d = 在c中屬於不同簇且在d中屬於不同簇的樣本對的數量。
由此可以匯出幾個常見的外部效能指標,jaccard係數,fm指數,rand指數。
jaccard指數(簡稱jc)常用來表示集合之間的相似性和差異性,常常被定義為集合交集大小與集合並集大小的比值,因此也常被叫做並交比。其公式為
fm指數(簡稱fmi)
rand指數(rand index,簡稱ri)
ri和jaccard係數十分相似,只是所比較的範圍不同而已。這裡每個指標的值均在0-1之間,顯然值越大說明聚類效果越好。
內部指標則只考慮聚類之後這些簇之間的效果,通常用距離來度量。
使用這些簇間的距離指標也可以匯出幾個常見的效能度量內部指標,db指數,dunn指數。
db指數(簡稱dbi)
dunn指數(簡稱di)
顯然,dbi的值越小越好,而di的值越大越好。
計算簇之間的相似性和差異性時常常要使用距離來進行度量,內部指標也都是以距離度量為基礎的。
距離常常分為度量距離和非度量距離,其中度量距離滿足非負性,對稱性,直遞性(三角不等式),而非度量距離往往不滿足直遞性。舉個例子,人馬和人很像,人馬也和馬和像,但是人和馬的差距非常大,即不滿足三角不等式,所以這個距離為非距離度量。
而對於屬性可以分為連續屬性和離散屬性,但這個分類法對距離度量沒有多大意義。在考慮距離的時候,屬性更多的是考慮有序性,例如高,中,矮是有序的,即高》中》矮。但是金魚,鯉魚,草魚這些便是沒有順序的,無法對這些魚的品種來比較順序。
對於有序屬性,我們最常使用的是閔科夫斯基距離
而當p取不同值的時候,便可得到實際使用的距離度量。
當p=1時,為曼哈頓距離
當p=2時,為歐式距離
當p=無窮大時,為切比雪夫距離
對於無序屬性,使用vdm(value difference metric)來表示,令mu,
am_mu,a
表示在屬性u上取值為a的樣本數,mu,
a,im_
mu,a,i
表示在第i個樣本簇中在屬性u上取值為a的樣本數,k為樣本簇數,則屬性u上兩個離散值a,b的vdn距離為:
v dm
p=∑i
=1k∣
mu,a
,imu
,a−m
u,b,
imu,
b∣vdm_=\sum_^\left | \frac}}-\frac}} \right |
vdmp=
i=1∑
k∣∣
∣∣m
u,a
mu,a
,i
−mu,
bmu
,b,i
∣∣
∣∣對於包含有序屬性和無序屬性的混合屬性來說,只需要把閔科夫斯基距離和vdm聯合起來就行了
而對於多個具有不同重要性的屬性來說,只需要使用加權距離就可以了
以上的距離都是事先就計算好的,有的距離的度量方法需要通過學習資料中的特徵來獲得距離,這就屬於」距離度量學習「的範疇了。
聚類 效能度量
聚類的效能是很難度量,因為它是從資料中學習,並歸類。資料的特性的多方面的,那麼歸類的結果也會是多種。比如蘋果,可以從顏色 紅 綠 也可以從形狀 圓的 橢圓的 歸類,沒有一定的形式。但是我們還是試圖找到一些方法來評價聚類演算法的效能。主要分為外部指標和內部指標兩大類。外部指標是指,將結果與 參考的模型...
聚類之效能度量詳解
聚類是什麼呢?我們都聽說過 物以類聚 即把 志同道合 的 資料分到一起歸為一類,不同類之間在 志向 上具有較大分歧。舉個栗子,茫茫人生中,我們普通大眾會被god根據緣分進行聚類,緣分好的話,會成為朋友,甚至成為了可以互訴衷腸,餘生請指教 的男女盤友,那緣分不好的應該是一生從未謀面或者一面之緣或者是如...
常用聚類以及聚類的度量指標
外部度量 利用條件熵定義的同質性度量 sklearn.metrics.homogeneity score 每乙個聚出的類僅包含乙個類別的程度度量。sklearn.metrics.completeness 每乙個類別被指向相同聚出的類的程度度量。sklearn.metrics.v measure sc...