機器學習之Kmeans聚類

2021-10-09 09:56:37 字數 2493 閱讀 3464

本次學習總結:

1、理解相似度度量的各種方法及其相互聯絡

2、掌握k-means演算法思路及其使用條件

3、層次聚類的思路和方法

4、密度聚類並能夠應用於實踐

dbscan

密度最大值聚類

5、譜聚類演算法

譜聚類演算法與pca之間的關係

聚類的定義:

聚類就是將大量未知標註的資料,按照資料的內在相似性將資料劃分為多個類別,使得類別之間的相似性較大而且類別見的相似性較小。是一種物件都學習演算法。

1、閔可夫斯基距離

2、傑卡德相似係數

3、余弦相似度

4、person相似係數

5、相對熵距離(k-l)

6、hellinger距離

hellinger距離推導過程:

余弦相似度與person相似係數:

n維向量x和y之間的夾角記作@,根據餘弦定理得:

這兩個向量之間的相關係數是:

相關係數即為x和y座標向量各自平移到原點的距離的夾角余弦

給定乙個有n個物件的資料集,構造資料的k個族,k<=n,滿足下列條件:

1、每乙個族至少包含乙個物件

2、每乙個物件僅僅屬於乙個族

3、將滿足上述條件的k個族做乙個合理的劃分。

k-means演算法:

k-means演算法的過程圖:

計算聚類中心的方法**例項一:

計算聚類中心的方法**例項二:

記k個族中心為u1,u2,u3,…un,每個族的樣本個數為n1,n2,n3,nk.

使用平方誤差作為目標函式

該函式為關於u1,u2,u3,…的凸函式,其駐點為:

優點:

1、是解決聚類問題的一種經典演算法,簡單,快捷

2、對處理大量的資料,該演算法保持可伸縮性和高效率

3、當簇接近於高斯分布時,該演算法效果較好。

缺點:

1、在簇的平均值定義的情況下才能使用,可能不適用於某些應用

2、必須要實現給出k值,對於不同的k值會有不同的分類結果

3、對雜訊和孤立點資料敏感

1、均一性

含義: 乙個簇類只包含乙個類別的樣本,則滿足均一性

2、完整性

含義: 同類別的樣本被歸屬於相同的簇中,則滿足完整性

3、v-measure

含義: 均一性和完整性的加權平均

計算樣本i到同簇中其他樣本的距離的平均ai,ai越小,說明樣本i越歸屬於該簇,將ai成為簇內不相似度

簇的不相似度:簇c中所有樣本的ai的平均值

簇間不相似度: 計算樣本i到其他簇的所有樣本的平均距離。

輪廓係數: 根據樣本i的簇內相似度和簇間相似度。

s(i)越接近1,說明樣本i聚類越合理,-1,則說明樣本不該屬於該簇類,0,說明在邊界上。

所有樣本的s(i)的均值為聚類結果的輪廓係數,是該聚類是否合理、有效的度量。

1、層次聚類方法是對給定的資料集進行層次的分解,直到滿足某種條件就停止,具體可以分為:

凝聚的層次聚類和**的層次聚類。

[1] 統計學習方法–李航

[2] 機器學習–周志華

機器學習之聚類演算法 K Means

參考 聚類演算法可以分為 中心點方法 層次聚類方法 基於密度方法 基於網格 基於模型方法。其中最為經典的是k means演算法 k means屬於中心點方法 也有叫劃分方法 演算法經典簡單。演算法 人工選取k值,並選取k個點作為k個簇的質心 對所有樣本分別計算到k個簇的質心的距離 歐式或者曼哈頓 取...

機器學習演算法 之K means聚類

1.模型 k means演算法並沒有顯式的數學模型,演算法的目的是從資料集中得到k個中心點,每個中心點及其周圍的點形成乙個聚簇。k means是一種無監督的學習模型。k means的學習目標如下圖所示 2.策略 k mean演算法採用的損失函式是平方損失函式。每個簇的點距離中心的平方距離之和構成損失...

機器學習之K means聚類演算法

k均值演算法的計算過程非常直觀 1 從d中隨機取k個元素,作為k個簇的各自的中心。2 分別計算剩下的元素到k個簇中心的相異度,將這些元素分別劃歸到相異度最低的簇。3 根據聚類結果,重新計算k個簇各自的中心,計算方法是取簇中所有元素各自維度的算術平均數。4 將d中全部元素按照新的中心重新聚類。5 重複...