本次學習總結:
1、理解相似度度量的各種方法及其相互聯絡
2、掌握k-means演算法思路及其使用條件
3、層次聚類的思路和方法
4、密度聚類並能夠應用於實踐
dbscan
密度最大值聚類
5、譜聚類演算法
譜聚類演算法與pca之間的關係
聚類的定義:
聚類就是將大量未知標註的資料,按照資料的內在相似性將資料劃分為多個類別,使得類別之間的相似性較大而且類別見的相似性較小。是一種物件都學習演算法。
1、閔可夫斯基距離
2、傑卡德相似係數
3、余弦相似度
4、person相似係數
5、相對熵距離(k-l)
6、hellinger距離
hellinger距離推導過程:
余弦相似度與person相似係數:
n維向量x和y之間的夾角記作@,根據餘弦定理得:
這兩個向量之間的相關係數是:
相關係數即為x和y座標向量各自平移到原點的距離的夾角余弦。
給定乙個有n個物件的資料集,構造資料的k個族,k<=n,滿足下列條件:
1、每乙個族至少包含乙個物件
2、每乙個物件僅僅屬於乙個族
3、將滿足上述條件的k個族做乙個合理的劃分。
k-means演算法:
k-means演算法的過程圖:
計算聚類中心的方法**例項一:
計算聚類中心的方法**例項二:
記k個族中心為u1,u2,u3,…un,每個族的樣本個數為n1,n2,n3,nk.
使用平方誤差作為目標函式:
該函式為關於u1,u2,u3,…的凸函式,其駐點為:
優點:
1、是解決聚類問題的一種經典演算法,簡單,快捷
2、對處理大量的資料,該演算法保持可伸縮性和高效率
3、當簇接近於高斯分布時,該演算法效果較好。
缺點:
1、在簇的平均值定義的情況下才能使用,可能不適用於某些應用
2、必須要實現給出k值,對於不同的k值會有不同的分類結果
3、對雜訊和孤立點資料敏感
1、均一性
含義: 乙個簇類只包含乙個類別的樣本,則滿足均一性
2、完整性
含義: 同類別的樣本被歸屬於相同的簇中,則滿足完整性
3、v-measure
含義: 均一性和完整性的加權平均
計算樣本i到同簇中其他樣本的距離的平均ai,ai越小,說明樣本i越歸屬於該簇,將ai成為簇內不相似度。
簇的不相似度:簇c中所有樣本的ai的平均值
簇間不相似度: 計算樣本i到其他簇的所有樣本的平均距離。
輪廓係數: 根據樣本i的簇內相似度和簇間相似度。
s(i)越接近1,說明樣本i聚類越合理,-1,則說明樣本不該屬於該簇類,0,說明在邊界上。
所有樣本的s(i)的均值為聚類結果的輪廓係數,是該聚類是否合理、有效的度量。
1、層次聚類方法是對給定的資料集進行層次的分解,直到滿足某種條件就停止,具體可以分為:
凝聚的層次聚類和**的層次聚類。
[1] 統計學習方法–李航
[2] 機器學習–周志華
機器學習之聚類演算法 K Means
參考 聚類演算法可以分為 中心點方法 層次聚類方法 基於密度方法 基於網格 基於模型方法。其中最為經典的是k means演算法 k means屬於中心點方法 也有叫劃分方法 演算法經典簡單。演算法 人工選取k值,並選取k個點作為k個簇的質心 對所有樣本分別計算到k個簇的質心的距離 歐式或者曼哈頓 取...
機器學習演算法 之K means聚類
1.模型 k means演算法並沒有顯式的數學模型,演算法的目的是從資料集中得到k個中心點,每個中心點及其周圍的點形成乙個聚簇。k means是一種無監督的學習模型。k means的學習目標如下圖所示 2.策略 k mean演算法採用的損失函式是平方損失函式。每個簇的點距離中心的平方距離之和構成損失...
機器學習之K means聚類演算法
k均值演算法的計算過程非常直觀 1 從d中隨機取k個元素,作為k個簇的各自的中心。2 分別計算剩下的元素到k個簇中心的相異度,將這些元素分別劃歸到相異度最低的簇。3 根據聚類結果,重新計算k個簇各自的中心,計算方法是取簇中所有元素各自維度的算術平均數。4 將d中全部元素按照新的中心重新聚類。5 重複...