常見聚類方法的介紹及其改進與評估方法

2021-09-11 10:52:51 字數 1124 閱讀 5013

聚類方法介紹

聚類方法主要分為自上而下聚類和自下而上聚類。

自上而下聚類指的是,首先將所有的樣本點一起看作一類,對這一大類不停地進行拆分;

而自下而上聚類指的是,首先把每個點自己都看成一類,這樣起始會有n類,之後再逐漸合併。

1.k均值聚類方法

2.系統聚類法(自下而上)

3.注意事項

因為使用歐式距離,因此要做標準化。

聚類方法的改進

1. k-means方法的優缺點

2. k值的選取

其實選k的方法就是選取不停地k進行嘗試之後選擇類內離差平方和最小的k。

主要有碎石圖法和gap statistic方法,思想類似。

3.初始值的選擇方法改進

聚類效果的評價

在進行聚類之前,需要判斷資料是否可以進行聚類,即資料是否是隨機分布,是否存在非隨機的簇結構。

方法是:

a)首先計算資料集中每乙個點到最近點的距離,得到n個距離x

ix_i

xi​;

b)在資料取值範圍內隨機生成n個點,對這隨機生成的n個點中的每乙個點,尋找與其距離最近的點,並分別計算距離,得到n個距離y

iy_i

yi​;

c)比較σxi

\sigma

σxi​

和σ yi

\sigma

σyi​

之間的大小。

d)若原始資料隨機分布,則二者相差不大,h接近0.5,否則接近1。

h =σ

yi/(

σxi+

σyi)

h=}/+\sigma)}

h=σyi​

/(σx

i​+σ

yi​)

聚類後,對聚類效果進行評價,由於是無監督學習,所以只能從聚類後的資料是否分得開入手。即是否做到了類內同質化最大,類間異質化最大。下面的統計量基本都是基於這個思想來構造的。

聚類與常見聚類方法

2.層次聚類 hiecarchical clustering 3.密度聚類 density based clustering 4.參考 k均值演算法是屬於劃分的聚類方法,k均值演算法將樣本分為k類,是通過最小化簇內距離 平方誤差 來實現的。e i 1n x c i x ui 22e sum n su...

KMeans聚類演算法的缺陷及改進方法

演算法思路 選擇k個點作為初始質心 repeat 將每個點指派到最近的質心,形成k個簇 重新計算每個簇的質心 until 簇不發生變化或達到最大迭代次數 1 k means聚類演算法需要使用者事先指定聚類的個數k值.在很多時候,在對資料集進行聚類的時候,使用者起初並不清楚資料集應該分為多少類合適,對...

K Means聚類方法與EM演算法之間的關係

將樣本分成k個類,其實說白了就是求乙個樣本例的隱含類別y,然後利用隱含類別將x歸類。由於我們事先不知道類別y,那麼我們首先可以對每個樣例假定乙個y吧,但是怎麼知道假定的對不對呢?怎樣評價假定的好不好呢?我們使用樣本的極大似然估計來度量,這裡就是x和y的聯合分布p x,y 了。如果找到的y能夠使p x...