在無監督的情況下,我們可以通過考察簇的分離情況和簇的緊湊情況來評估聚類的效果。
給定乙個點 p
pp,該點的輪廓係數定義為
其中 a(p
)a(p)
a(p)
是點pp
p與同一簇中的其他點 p′p'
p′之間的平均距離,b(p
)b(p)
b(p)
是點pp
p與另乙個不同簇中的點之間的最小平均距離(如果有 n
nn 個其他簇,則只計算和點 p
pp 最接近的一簇中的點與該點的平均距離)。a(p
)a(p)
a(p)
反映的是 p
pp 所屬簇中資料的緊湊程度,b(p
)b(p)
b(p)
反映的是該簇與其他鄰近簇的分離程度。顯然,b(p
)b(p)
b(p)
越大,a(p
)a(p)
a(p)
越小,對應的聚類質量越好,因此我們將所有點對應的輪廓係數 s(p
)s(p)
s(p)
求平均值來度量聚類結果的質量。
用來衡量聚類結果的同質性,即緊湊程度,定義為
其中 c
ic_i
ci 代表第i
ii個簇,c
ic_i
ci 是該簇的中心,x∈c
ix∈c_i
x∈ci
代表屬於第 i
ii 個簇的乙個樣本點,n
in_i
ni 為第 i
ii 個簇的樣本數量,p
pp 為樣本點對應的向量維數。可以看出,分母對點的維度 p
pp 做了懲罰,維數越高,則整體的平方距離度量值越大。∑i(
ni−1
)=n−
nc\sum_(n_i-1)=n-nc
∑i(ni
−1)
=n−n
c,其中 n
nn 為樣本點的總數, ncnc
nc為聚類簇的個數,通常 n
c<
<
<
n,因此∑i(
ni−1
)\sum_i(n_i-1)
∑i(ni
−1)
的值接近點的總數,為乙個常數。綜上,rmsstd可以看作是經過歸一化的標準差。
可以用來何亮聚類的差異度,定義為
其中d代表整個資料集,c代表資料集d的中心點,從而∑x∈
d∣∣x
−c∣∣
2\sum_||x-c||^2
∑x∈d∣
∣x−c
∣∣2代表將資料集d看作單一簇時的平方誤差和。與上一指標rmsstd中的定義相同,∑i∑
x∈ci
∣∣x−
ci∣∣
2\sum_ \sum_||x-c_i||^2
∑i∑x∈
ci
∣∣x−
ci∣
∣2代表將資料集聚類之後的平方誤差和,所以 rsrs
rs代表了聚類之後的結果與聚類之前相比,對應的平方誤差和指標的改進幅度。
通過資料對的不一致性來評估聚類的差異,定義為
其中d (x
,y)d(x,y)
d(x,y)
表示點 x
xx 到點 y
yy 之間的距離,dx∈
ci,y
∈cj(
ci,c
j)d_(c_i,c_j)
dx∈ci
,y∈c
j(
ci,
cj)
代表點 x
xx 所在的簇中心 c
ic_i
ci 與電 y
yy 所在的簇中心 c
jc_j
cj 之間的距離,n(n
−1)2
\frac
2n(n−1
)為所有(x,
y)(x,y)
(x,y
) 點對的個數,因此指標相當於對每個點對的和做了歸一化處理。理想情況下,對於每個點對 (x,
y)(x,y)
(x,y
),如果d(x
,y)d(x,y)
d(x,y)
越小,dx∈
ci,y
∈cj(
ci,c
j)d_(c_i,c_j)
dx∈ci
,y∈c
j(
ci,
cj)
也應該越小(特別地,當它們屬於同乙個聚類簇時, dx∈
ci,y
∈cj(
ci,c
j)=0
d_(c_i,c_j)=0
dx∈ci
,y∈c
j(
ci,
cj)
=0;當 d(x
,y)d(x,y)
d(x,y)
越大,dx∈
ci,y
∈cj(
ci,c
j)d_(c_i,c_j)
dx∈ci
,y∈c
j(
ci,
cj)
也應該越大,所以 f
ff 值越大說明聚類的結果與樣本的原始距離越吻合,也就是聚類質量越高。
此外,為了更加合理地評估不同聚類演算法的效能,通常還需要人為地構造不同型別的資料集,以觀察聚類演算法在這些資料集上的效果。
機器學習系列手記(五) 非監督學習之高斯混合模型
高斯混合模型 gaussian mixed model,gmm 也是一種常見的聚類演算法,與k均值演算法類似,同樣使用了em演算法進行迭代計算。高斯混合模型假設每個簇的資料都是符合高斯分布 又叫正態分佈 的,當前資料呈現的分布就是各個簇的高斯分布疊加在一起的結果。理論上,高斯混合模型可以擬合出任意型...
監督學習和非監督學習
重新看一遍ng的機器學習課程,第一次寫讀書筆記,希望能夠堅持下來!對於監督學習,首先來看乙個例子,如下圖.圖中的資料來自r語言中的boston資料集,其中lstat軸表示地位較低的人口比重,medv軸表示median value of owner occupied homes in 1000s。如果...
監督學習和非監督學習
監督學習 監督學習就是分類,把人們已經處理好的訓練樣本 即已知資料和對應輸出 給計算機,計算機通過規律訓練出乙個最佳模型,再用這個模型對輸入的資料進行分類,得出對應的輸出。從而使計算機具有對未知資料進行分類的功能。特點 目標明確 需要帶標籤的訓練樣本 分類效果很容易評估 非監督學習 非監督學習沒有訓...