聚類演算法及其評價

2021-08-20 08:11:16 字數 2539 閱讀 9210

姓名:jyx

班級:csdn人工智慧直通車-5期

描述:這是本人在學習人工智慧時的學習筆記,加深理解

聚類是一種非監督學習,聚類需要將一系列樣本輸入到聚類演算法中,學習樣本的內在結構。聚類往往不單獨存在,而是作為乙個大的監督學習演算法的一部分存在

聚類的原則。 類內散度最小,類間散度最大

聚類的用途

3.1 減少計算量。通過對樣本分類,以分類標籤代替原始向量,大大減少計算量

3.2 識別離群點。

3.3 視覺化

聚類的要素。特徵選擇,近鄰測度,聚類準則,聚類演算法,結果驗證,結果判定

距離測度 d(

x,y)

=||x

−y||

1pp d(x

,y)=

||x−

y||p

1p

余弦相似度 d(

x,y)

=xty

|x||y|d

(x,y

)=xt

y|x|

|y

|相關係數 d(

x,y)

=cov

(x,y

)δxδ

y d(x

,y)=

cov(

x,y)

δxδy

傑卡德相似係數 d(

x,y)

=∑k−

1i=1

aiin

x+ny

−∑k−

1i=1

∑k−1

j=1a

ijwh

eren

x=∑i

=1k−

1∑j=

0k−1

aij,

ny=∑

i=0k

−1∑j

=1k−

1aijd(

x,y)

=∑i=

1k−1

aiin

x+ny

−∑i=

1k−1

∑j=1

k−1a

ijwh

eren

x=∑i

=1k−

1∑j=

0k−1

aij,

ny=∑

i=0k

−1∑j

=1k−

1aij

其中矩陣

稱為相依表(contingency table)

分類 1.1 基於距離的聚類演算法

1.2 基於密度的聚類演算法

1.3 基於連線的聚類演算法

基於距離的聚類演算法

2.1 kmeans

對於乙個k類問題,kmeans 的優化目標為

argminc∑

i=1k

∑x∈c

i(x−

μi)2

,ui=

1nci

∑x∈c

ixarg

⁡minc⁡

∑i=1

k∑x∈

ci(x

−μi)

2,ui

=1nc

i∑x∈

ci

x這是乙個組合優化問題,完全的求解幾乎不可能。一般的的思路都是採用貪婪演算法,求解區域性最優,因此kmeans一般要使用隨機初值多嘗試幾次

演算法描述

選擇隨機的聚類中心μiμi

初始化演算法

根據每個樣本距離聚類中心的距離對每個樣本進行分類,x∈

ci,arg

mini(x

−ui)

2 x∈c

i,

arg⁡

mini⁡(

x−ui

)2

利用分類好的聚類結果更新新的聚類中心ui

=1nc

i∑x∈

cix ui=

1nci

∑x∈c

ix

重複2,3步直uiui

基本不變

2.2 層次聚類

層次聚類**於生物學的生物分類,一級包含一級,形成乙個層次聚類。層次演算法並不存在乙個優化目標。層次聚類有兩種,一種是**,一種是聚合。**是自頂向下,聚合是自底向上

基本演算法描述:

1 將每乙個樣本初始化乙個類cici

2 選取一對cn

ew=c

i∪cj

,arg

mini,j

d(ci

,cj)cn

ew=c

i∪cj

,arg

⁡mini,

j⁡d(

ci,c

j)

3 刪除原來的ci

,cj ci,

cj

4重複2,3直至只有乙個類

這樣就形成了乙個分類樹,然後根據某些知識和準則選取每一級作為最後的聚類結果

2.3 吸引力傳播

2.4 dbscan

聚類的評價指標

我們知道,監督學習的評價指標是準確率 召回率 f1 f f 1 f beta f1 f roc auc等等,但聚類方法在大多數情況下資料是沒有標籤的,這些情況下聚類就不能使用以上的評價指標了。聚類有自己的評價指標,大多數聚類的評價指標是通過緊湊性和可分性來定義的。緊湊性基本上是衡量乙個聚類中的元素彼...

聚類評價指標學習

一般分為 外部 內部 相對,這三種評價指標。正確聚類的樣本數佔總樣本的比例 非常直觀且簡單的計算法方法。即歸一化互資訊,計算公式如下 互資訊指的是兩個隨機變數之間的關聯程度,標準互資訊是將互資訊歸一化0 1。值越高越好。ri是蘭德指數,ari範圍是 1,1 值越大意味著聚類結果與真實情況越吻合。從廣...

IM 關於聚類評價演算法的理解

譜聚類是基於拉普拉斯特徵對映的k近鄰聚類,matlab 如下 n 500 c 2 k 10 t randperm n a linspace 0,2 pi,n 2 x a.cos a a.sin a a pi cos a a pi sin a x x rand n,2 x x repmat mean ...