姓名:jyx聚類是一種非監督學習,聚類需要將一系列樣本輸入到聚類演算法中,學習樣本的內在結構。聚類往往不單獨存在,而是作為乙個大的監督學習演算法的一部分存在班級:csdn人工智慧直通車-5期
描述:這是本人在學習人工智慧時的學習筆記,加深理解
聚類的原則。 類內散度最小,類間散度最大
聚類的用途
3.1 減少計算量。通過對樣本分類,以分類標籤代替原始向量,大大減少計算量
3.2 識別離群點。
3.3 視覺化
聚類的要素。特徵選擇,近鄰測度,聚類準則,聚類演算法,結果驗證,結果判定
距離測度 d(
x,y)
=||x
−y||
1pp d(x
,y)=
||x−
y||p
1p
余弦相似度 d(
x,y)
=xty
|x||y|d
(x,y
)=xt
y|x|
|y
|相關係數 d(
x,y)
=cov
(x,y
)δxδ
y d(x
,y)=
cov(
x,y)
δxδy
傑卡德相似係數 d(
x,y)
=∑k−
1i=1
aiin
x+ny
−∑k−
1i=1
∑k−1
j=1a
ijwh
eren
x=∑i
=1k−
1∑j=
0k−1
aij,
ny=∑
i=0k
−1∑j
=1k−
1aijd(
x,y)
=∑i=
1k−1
aiin
x+ny
−∑i=
1k−1
∑j=1
k−1a
ijwh
eren
x=∑i
=1k−
1∑j=
0k−1
aij,
ny=∑
i=0k
−1∑j
=1k−
1aij
其中矩陣
稱為相依表(contingency table)
分類 1.1 基於距離的聚類演算法
1.2 基於密度的聚類演算法
1.3 基於連線的聚類演算法
基於距離的聚類演算法
2.1 kmeans
對於乙個k類問題,kmeans 的優化目標為
argminc∑
i=1k
∑x∈c
i(x−
μi)2
,ui=
1nci
∑x∈c
ixarg
minc
∑i=1
k∑x∈
ci(x
−μi)
2,ui
=1nc
i∑x∈
ci
x這是乙個組合優化問題,完全的求解幾乎不可能。一般的的思路都是採用貪婪演算法,求解區域性最優,因此kmeans一般要使用隨機初值多嘗試幾次
演算法描述2.2 層次聚類選擇隨機的聚類中心μiμi
初始化演算法
根據每個樣本距離聚類中心的距離對每個樣本進行分類,x∈
ci,arg
mini(x
−ui)
2 x∈c
i,
arg
mini(
x−ui
)2
利用分類好的聚類結果更新新的聚類中心ui
=1nc
i∑x∈
cix ui=
1nci
∑x∈c
ix
重複2,3步直uiui
基本不變
層次聚類**於生物學的生物分類,一級包含一級,形成乙個層次聚類。層次演算法並不存在乙個優化目標。層次聚類有兩種,一種是**,一種是聚合。**是自頂向下,聚合是自底向上
基本演算法描述:
1 將每乙個樣本初始化乙個類cici這樣就形成了乙個分類樹,然後根據某些知識和準則選取每一級作為最後的聚類結果2 選取一對cn
ew=c
i∪cj
,arg
mini,j
d(ci
,cj)cn
ew=c
i∪cj
,arg
mini,
jd(
ci,c
j)
3 刪除原來的ci
,cj ci,
cj
4重複2,3直至只有乙個類
2.3 吸引力傳播
2.4 dbscan
聚類的評價指標
我們知道,監督學習的評價指標是準確率 召回率 f1 f f 1 f beta f1 f roc auc等等,但聚類方法在大多數情況下資料是沒有標籤的,這些情況下聚類就不能使用以上的評價指標了。聚類有自己的評價指標,大多數聚類的評價指標是通過緊湊性和可分性來定義的。緊湊性基本上是衡量乙個聚類中的元素彼...
聚類評價指標學習
一般分為 外部 內部 相對,這三種評價指標。正確聚類的樣本數佔總樣本的比例 非常直觀且簡單的計算法方法。即歸一化互資訊,計算公式如下 互資訊指的是兩個隨機變數之間的關聯程度,標準互資訊是將互資訊歸一化0 1。值越高越好。ri是蘭德指數,ari範圍是 1,1 值越大意味著聚類結果與真實情況越吻合。從廣...
IM 關於聚類評價演算法的理解
譜聚類是基於拉普拉斯特徵對映的k近鄰聚類,matlab 如下 n 500 c 2 k 10 t randperm n a linspace 0,2 pi,n 2 x a.cos a a.sin a a pi cos a a pi sin a x x rand n,2 x x repmat mean ...