聚類是乙個把資料物件集劃分成多個組或者簇的過程,使得簇內的物件具有很高的相似性,但與其他簇中的物件很不相似.聚類是無監督學習,不依賴於預定義的類和類標號的訓練例項。我們常見的聚類演算法分為以下幾類:劃分方法、層次方法、基於密度的方法和基於網格的方法。
給定n個物件的集合,劃分方法構建資料的k個劃分,每個劃分表示乙個簇,k<=n。也就是說,劃分方法將資料分為k個組,每個組至少包含乙個物件。
大部分的劃分方法是基於距離的,但是這只能發現球狀簇。。它採用一種迭代的重定位技術,通過將物件從乙個組移動到另乙個組來改進劃分結果。乙個好的劃分方法的一般準則是:同乙個簇內的物件盡可能相互接近或相關,而不同簇的物件盡可能遠離或者不同。
常見的基於劃分的演算法有:k-均值演算法和k-中心點演算法。
層次方法建立給定資料物件集的層次分解。分為凝聚的方法和**的方法兩種。凝聚的方法,也稱自底向上的方法,開始將每個物件看作單獨的一組,然後逐次向上合併相近的物件或者分組,直到所有的組合並為乙個大組,或者滿足終止條件。**的方法,也成為自頂向下的方法,開始將所有物件看作乙個簇,然後在每次迭代中乙個簇被劃分為更小的簇,直到每個物件在乙個單獨的簇,或者滿足終止條件。
層次聚類方法是可以基於距離或者基於密度和連通性的。但是缺陷在於,一旦乙個步驟(合併或者**)完成,它就不能再被撤銷。
基於密度的聚類方法主要思想是:只要「鄰域」中的密度(物件或者資料點的數目)超過某個閥值,就繼續增長給定的簇。也就是說,對於沒頂的簇中的每個資料點,在給定半徑的鄰域中必須至少包含最少數目的點。這可以用來過濾雜訊或者立群點,發現形狀任意的簇。
基於網格的方法把物件空間量化為有限個單元,形成乙個網格結構。所有聚類都在這個網格結構(量化的空間)上進行,它僅僅依賴於量化空間中的每一維的單元數。因此可以和其他聚類方法進行整合。
注:以上讀自《資料探勘概念與技術》 一書
聚類系列 概述
本系列要講解一下本人這一段時間工作中 使用聚類來做的一些事情,第一次寫部落格大家不喜勿噴,有錯誤請及時指出,本人一定改正。nlp中的聚類就是在沒有任何的指導資料的情況下,將相似的實體聚集到乙個類別中,將不相似的聚集到不同的類別中去。但是這裡相似或者不相似用什麼去衡量呢?又是怎麼計算出來的相似度呢?之...
譜聚類概述
一 簡述 聚類是對探索性資料分析最廣泛使用的技術,在現在各個科學領域中處理沒有類標的資料時,人們總是想通過確定資料中不同樣本的歸類,來獲取對資料的直觀印象。傳統的聚類方法有很多,像k means,single linkage等,但是k means演算法有些缺點,比如當樣本維度特別大的時候,k mea...
聚類演算法 近鄰聚類演算法
time is always too short for those who need it,but for those who love,it lasts forever.dracula untold 近鄰聚類法同樣是一種基於距離閾值的聚類演算法。coding utf 8 近鄰聚類演算法的pyth...