聚類中的效能度量

2021-09-02 15:26:16 字數 2556 閱讀 8695

在無監督學習中,訓練樣本的標記是沒有指定的,通過對無標記樣本的訓練來探索資料之間的規律。其中應用最廣的便是聚類,聚類試圖把一群未標記資料劃分為一堆不相交的子集,每個子集叫做」簇「,每個簇可能對應於乙個類別標籤,但值得注意的是,這個標籤僅僅是我們人為指定強加的,並不是資料本身就存在這樣的標籤。例如**軟體對**的曲分或者流派進行聚類,可以劃分為傷感,輕快等一系列標籤,但是這個曲分只是人為加上的,**本身並不知道自己被分為了什麼曲分。

那聚類該如何做效能度量呢?在機器學習中我們都需要對任務進行評價以便於進行下一步的優化。分類和回歸都有自己的評估準則,包括準確率,精確度,召回率等,聚類中的效能度量也同樣有這樣的指標來評價聚類的效能。

考慮聚類的任務的目的,容易想到就是」物以類聚「,即達到」簇內相似度高「,」簇間相似度低「的效能效果。具體的效能度量有兩類,一類是外部指標,與某個專家給定的參考模型進行比對,另一類是內部指標,只考慮自己聚類之後的結果。

外部指標需要乙個參考模型,這個參考模型通常是由專家給定的,或者是公認的參考模型比如公開資料集。對於聚類的結果所形成的簇集合(這裡叫做簇c),對於參考模型的簇集合(這裡叫做d),對這兩個模型結果的樣本進行兩兩配對比較,可得到如下顯而易見的資料。

a = 在c中屬於相同簇且在d中屬於相同簇的樣本對的數量。

b = 在c中屬於相同簇且在d中屬於不同簇的樣本對的數量。

c = 在c中屬於不同簇且在d中屬於相同簇的樣本對的數量。

d = 在c中屬於不同簇且在d中屬於不同簇的樣本對的數量。

對這裡的abcd,不考慮乙個樣本屬於多個簇的情況,因此每個樣本都只能出現在乙個集合中,所以a+b+c+d=m(m-1)/2。(m為樣本總數)

由此可以匯出幾個常見的外部效能指標,jaccard係數,fm指數,rand指數。

jaccard指數(簡稱jc)常用來表示集合之間的相似性和差異性,常常被定義為集合交集大小與集合並集大小的比值,因此也常被叫做並交比。其公式為

fm指數(簡稱fmi)

rand指數(rand index,簡稱ri)

ri和jaccard係數十分相似,只是所比較的範圍不同而已。這裡每個指標的值均在0-1之間,顯然值越大說明聚類效果越好。

內部指標則只考慮聚類之後這些簇之間的效果,通常用距離來度量。

使用這些簇間的距離指標也可以匯出幾個常見的效能度量內部指標,db指數,dunn指數。

db指數(簡稱dbi)

dunn指數(簡稱di)

顯然,dbi的值越小越好,而di的值越大越好。

計算簇之間的相似性和差異性時常常要使用距離來進行度量,內部指標也都是以距離度量為基礎的。

距離常常分為度量距離和非度量距離,其中度量距離滿足非負性,對稱性,直遞性(三角不等式),而非度量距離往往不滿足直遞性。舉個例子,人馬和人很像,人馬也和馬和像,但是人和馬的差距非常大,即不滿足三角不等式,所以這個距離為非距離度量。

而對於屬性可以分為連續屬性和離散屬性,但這個分類法對距離度量沒有多大意義。在考慮距離的時候,屬性更多的是考慮有序性,例如高,中,矮是有序的,即高》中》矮。但是金魚,鯉魚,草魚這些便是沒有順序的,無法對這些魚的品種來比較順序。

對於有序屬性,我們最常使用的是閔科夫斯基距離

而當p取不同值的時候,便可得到實際使用的距離度量。

當p=1時,為曼哈頓距離

當p=2時,為歐式距離

當p=無窮大時,為切比雪夫距離

對於無序屬性,使用vdm(value difference metric)來表示,令mu,

am_mu,a

​表示在屬性u上取值為a的樣本數,mu,

a,im_

mu,a,i

​表示在第i個樣本簇中在屬性u上取值為a的樣本數,k為樣本簇數,則屬性u上兩個離散值a,b的vdn距離為:

v dm

p=∑i

=1k∣

mu,a

,imu

,a−m

u,b,

imu,

b∣vdm_=\sum_^\left | \frac}}-\frac}} \right |

vdmp​=

i=1∑

k​∣∣

∣∣​m

u,a​

mu,a

,i​​

−mu,

b​mu

,b,i

​​∣∣

∣∣​對於包含有序屬性和無序屬性的混合屬性來說,只需要把閔科夫斯基距離和vdm聯合起來就行了

而對於多個具有不同重要性的屬性來說,只需要使用加權距離就可以了

以上的距離都是事先就計算好的,有的距離的度量方法需要通過學習資料中的特徵來獲得距離,這就屬於」距離度量學習「的範疇了。

聚類 效能度量

聚類的效能是很難度量,因為它是從資料中學習,並歸類。資料的特性的多方面的,那麼歸類的結果也會是多種。比如蘋果,可以從顏色 紅 綠 也可以從形狀 圓的 橢圓的 歸類,沒有一定的形式。但是我們還是試圖找到一些方法來評價聚類演算法的效能。主要分為外部指標和內部指標兩大類。外部指標是指,將結果與 參考的模型...

聚類之效能度量詳解

聚類是什麼呢?我們都聽說過 物以類聚 即把 志同道合 的 資料分到一起歸為一類,不同類之間在 志向 上具有較大分歧。舉個栗子,茫茫人生中,我們普通大眾會被god根據緣分進行聚類,緣分好的話,會成為朋友,甚至成為了可以互訴衷腸,餘生請指教 的男女盤友,那緣分不好的應該是一生從未謀面或者一面之緣或者是如...

常用聚類以及聚類的度量指標

外部度量 利用條件熵定義的同質性度量 sklearn.metrics.homogeneity score 每乙個聚出的類僅包含乙個類別的程度度量。sklearn.metrics.completeness 每乙個類別被指向相同聚出的類的程度度量。sklearn.metrics.v measure sc...