聚類方法介紹
聚類方法主要分為自上而下聚類和自下而上聚類。
自上而下聚類指的是,首先將所有的樣本點一起看作一類,對這一大類不停地進行拆分;
而自下而上聚類指的是,首先把每個點自己都看成一類,這樣起始會有n類,之後再逐漸合併。
1.k均值聚類方法
2.系統聚類法(自下而上)
3.注意事項
因為使用歐式距離,因此要做標準化。
聚類方法的改進
1. k-means方法的優缺點
2. k值的選取
其實選k的方法就是選取不停地k進行嘗試之後選擇類內離差平方和最小的k。
主要有碎石圖法和gap statistic方法,思想類似。
3.初始值的選擇方法改進
聚類效果的評價
在進行聚類之前,需要判斷資料是否可以進行聚類,即資料是否是隨機分布,是否存在非隨機的簇結構。
方法是:
a)首先計算資料集中每乙個點到最近點的距離,得到n個距離x
ix_i
xi;
b)在資料取值範圍內隨機生成n個點,對這隨機生成的n個點中的每乙個點,尋找與其距離最近的點,並分別計算距離,得到n個距離y
iy_i
yi;
c)比較σxi
\sigma
σxi
和σ yi
\sigma
σyi
之間的大小。
d)若原始資料隨機分布,則二者相差不大,h接近0.5,否則接近1。
h =σ
yi/(
σxi+
σyi)
h=}/+\sigma)}
h=σyi
/(σx
i+σ
yi)
聚類後,對聚類效果進行評價,由於是無監督學習,所以只能從聚類後的資料是否分得開入手。即是否做到了類內同質化最大,類間異質化最大。下面的統計量基本都是基於這個思想來構造的。
聚類與常見聚類方法
2.層次聚類 hiecarchical clustering 3.密度聚類 density based clustering 4.參考 k均值演算法是屬於劃分的聚類方法,k均值演算法將樣本分為k類,是通過最小化簇內距離 平方誤差 來實現的。e i 1n x c i x ui 22e sum n su...
KMeans聚類演算法的缺陷及改進方法
演算法思路 選擇k個點作為初始質心 repeat 將每個點指派到最近的質心,形成k個簇 重新計算每個簇的質心 until 簇不發生變化或達到最大迭代次數 1 k means聚類演算法需要使用者事先指定聚類的個數k值.在很多時候,在對資料集進行聚類的時候,使用者起初並不清楚資料集應該分為多少類合適,對...
K Means聚類方法與EM演算法之間的關係
將樣本分成k個類,其實說白了就是求乙個樣本例的隱含類別y,然後利用隱含類別將x歸類。由於我們事先不知道類別y,那麼我們首先可以對每個樣例假定乙個y吧,但是怎麼知道假定的對不對呢?怎樣評價假定的好不好呢?我們使用樣本的極大似然估計來度量,這裡就是x和y的聯合分布p x,y 了。如果找到的y能夠使p x...