機器學習系列手記(五) 非監督學習之聚類演算法的評估

2021-10-23 03:24:53 字數 3111 閱讀 4154

在無監督的情況下,我們可以通過考察簇的分離情況和簇的緊湊情況來評估聚類的效果。

給定乙個點 p

pp,該點的輪廓係數定義為

其中 a(p

)a(p)

a(p)

是點pp

p與同一簇中的其他點 p′p'

p′之間的平均距離,b(p

)b(p)

b(p)

是點pp

p與另乙個不同簇中的點之間的最小平均距離(如果有 n

nn 個其他簇,則只計算和點 p

pp 最接近的一簇中的點與該點的平均距離)。a(p

)a(p)

a(p)

反映的是 p

pp 所屬簇中資料的緊湊程度,b(p

)b(p)

b(p)

反映的是該簇與其他鄰近簇的分離程度。顯然,b(p

)b(p)

b(p)

越大,a(p

)a(p)

a(p)

越小,對應的聚類質量越好,因此我們將所有點對應的輪廓係數 s(p

)s(p)

s(p)

求平均值來度量聚類結果的質量。

用來衡量聚類結果的同質性,即緊湊程度,定義為

其中 c

ic_i

ci​ 代表第i

ii個簇,c

ic_i

ci​ 是該簇的中心,x∈c

ix∈c_i

x∈ci

​ 代表屬於第 i

ii 個簇的乙個樣本點,n

in_i

ni​ 為第 i

ii 個簇的樣本數量,p

pp 為樣本點對應的向量維數。可以看出,分母對點的維度 p

pp 做了懲罰,維數越高,則整體的平方距離度量值越大。∑i(

ni−1

)=n−

nc\sum_(n_i-1)=n-nc

∑i​(ni

​−1)

=n−n

c,其中 n

nn 為樣本點的總數, ncnc

nc為聚類簇的個數,通常 n

c<

<

<

n,因此∑i(

ni−1

)\sum_i(n_i-1)

∑i​(ni

​−1)

的值接近點的總數,為乙個常數。綜上,rmsstd可以看作是經過歸一化的標準差。

可以用來何亮聚類的差異度,定義為

其中d代表整個資料集,c代表資料集d的中心點,從而∑x∈

d∣∣x

−c∣∣

2\sum_||x-c||^2

∑x∈d​∣

∣x−c

∣∣2代表將資料集d看作單一簇時的平方誤差和。與上一指標rmsstd中的定義相同,∑i∑

x∈ci

∣∣x−

ci∣∣

2\sum_ \sum_||x-c_i||^2

∑i​∑x∈

ci​​

∣∣x−

ci​∣

∣2代表將資料集聚類之後的平方誤差和,所以 rsrs

rs代表了聚類之後的結果與聚類之前相比,對應的平方誤差和指標的改進幅度。

通過資料對的不一致性來評估聚類的差異,定義為

其中d (x

,y)d(x,y)

d(x,y)

表示點 x

xx 到點 y

yy 之間的距離,dx∈

ci,y

∈cj(

ci,c

j)d_(c_i,c_j)

dx∈ci​

,y∈c

j​​(

ci​,

cj​)

代表點 x

xx 所在的簇中心 c

ic_i

ci​ 與電 y

yy 所在的簇中心 c

jc_j

cj​ 之間的距離,n(n

−1)2

\frac

2n(n−1

)​為所有(x,

y)(x,y)

(x,y

) 點對的個數,因此指標相當於對每個點對的和做了歸一化處理。理想情況下,對於每個點對 (x,

y)(x,y)

(x,y

),如果d(x

,y)d(x,y)

d(x,y)

越小,dx∈

ci,y

∈cj(

ci,c

j)d_(c_i,c_j)

dx∈ci​

,y∈c

j​​(

ci​,

cj​)

也應該越小(特別地,當它們屬於同乙個聚類簇時, dx∈

ci,y

∈cj(

ci,c

j)=0

d_(c_i,c_j)=0

dx∈ci​

,y∈c

j​​(

ci​,

cj​)

=0;當 d(x

,y)d(x,y)

d(x,y)

越大,dx∈

ci,y

∈cj(

ci,c

j)d_(c_i,c_j)

dx∈ci​

,y∈c

j​​(

ci​,

cj​)

也應該越大,所以 f

ff 值越大說明聚類的結果與樣本的原始距離越吻合,也就是聚類質量越高。

此外,為了更加合理地評估不同聚類演算法的效能,通常還需要人為地構造不同型別的資料集,以觀察聚類演算法在這些資料集上的效果。

機器學習系列手記(五) 非監督學習之高斯混合模型

高斯混合模型 gaussian mixed model,gmm 也是一種常見的聚類演算法,與k均值演算法類似,同樣使用了em演算法進行迭代計算。高斯混合模型假設每個簇的資料都是符合高斯分布 又叫正態分佈 的,當前資料呈現的分布就是各個簇的高斯分布疊加在一起的結果。理論上,高斯混合模型可以擬合出任意型...

監督學習和非監督學習

重新看一遍ng的機器學習課程,第一次寫讀書筆記,希望能夠堅持下來!對於監督學習,首先來看乙個例子,如下圖.圖中的資料來自r語言中的boston資料集,其中lstat軸表示地位較低的人口比重,medv軸表示median value of owner occupied homes in 1000s。如果...

監督學習和非監督學習

監督學習 監督學習就是分類,把人們已經處理好的訓練樣本 即已知資料和對應輸出 給計算機,計算機通過規律訓練出乙個最佳模型,再用這個模型對輸入的資料進行分類,得出對應的輸出。從而使計算機具有對未知資料進行分類的功能。特點 目標明確 需要帶標籤的訓練樣本 分類效果很容易評估 非監督學習 非監督學習沒有訓...