1 k-means事先確定聚類中心個數,初始任意選擇聚類中心,然後計算每個點到聚類中心距離,一般用歐式距離,通過這個也可以看出來這種方法比較適用於圓形或者球形分布的情況,距離哪個聚類中心最近就屬於那一類,然後計算各個類的中心點作為新的聚類中心,重複操作,需要說明的是,這種方法對初始聚類中心選擇敏感,初始聚類中心會影響最後迭代的結果。
2 sequential leader這種方法優點是可以處理流資料,不需要迭代和設定聚類個數,但是需要人工設定閾值,閾值對結果影響很大。先任意取乙個點作為一類,取第二個點計算距離,如果大於閾值,則它自己為一類,依次計算新的點與原來各個類的midpoimt的距離和閾值關係。
3 em可以聚非圓形或者球形分布的類,但是我感覺這種方法還是受到很大限制,你需要事先對這些點的概率分布做出假設,可以是高斯分布,卡方等等,假設的分布不同最後效果是不同的。最後的分布是很多個分布的mixture為了概率和為一,需要加上權重,權重和為1。先假設,比如說每個高斯分布的均值方差權重,然後計算每個點屬於這個高斯分布的概率,注意這個概率是在這個點可能屬於所有類的分布中屬於特定類的概率,然後可以計算聚類中心點,可以求權重,然後又可以求每個點概率 這是一種迭代求法.對高維很難做精確處理,除非可以視覺化,而且概率分布假設對結果影響很大,必須事先確定類個數。
4 密度dbsan可以有效排除噪點,可以對任意連通形狀聚類。無需事先確定聚類個數。基於ceteral point 的畫圓連通的膨脹聚類。但是圓半徑和多少點在圓內需要自己設定。
5 層次聚類不需要事先設定類個數。bottom-up,計算距離矩陣,找出最小的合併,距離計算有最近和最遠距離,平均距離等,再計算距離矩陣,依次進行,最後會成為一類。
6 競爭神經網路聚類基於competitive 神經網路,權重任意初始化,輸入的是負距離。權重調整是基於wta原則,有bias,設定bias可以避免出現死神經元,經常更新權重的神經元的b會調小,不經常更新會調大。沒有死神經元意味著聚類個數小於等於輸出神經元個數,可能出現重複。
7模糊聚類計算相似矩陣,選定乙個截的λ不需要設k。根據λ不同結果不同。
8 som 會出現死神經元,聚類個數小於等於輸出神經元個數。不是簡單的wta,獲勝神經元周圍區域神經元都會按照距離遞減調整權重,調整區域逐漸減小。可以排除噪點干擾,收斂速度比6快。學習次數影響聚類結果。可以看出5678也是偏向於圓,球型分布
聚類總結(中) 密度聚類
密度聚類是一種基於密度的聚類方法,基於密度的聚類方法的主要思想是尋找被低密度區域分離的高密度區域。密度度量 乙個點的區域性密度有不同的度量方式 1.畫個圈,數圈內其他點個數是一種方法。2.用圈內其他點和給點半徑的比值的高斯概率密度形式,對距離核心點距離近的給大權重。3.計算圈內距離最小的前n個點到核...
聚類與常見聚類方法
2.層次聚類 hiecarchical clustering 3.密度聚類 density based clustering 4.參考 k均值演算法是屬於劃分的聚類方法,k均值演算法將樣本分為k類,是通過最小化簇內距離 平方誤差 來實現的。e i 1n x c i x ui 22e sum n su...
聚類總結(上) 劃分聚類
聚類指根據一定的準則,把乙份事物按照這個準則歸納成互不重合的幾份。機器學習中,聚類指按照乙個標準,這個標準通常是相似性,把樣本分成幾份,使得相似程度高的聚在一起,相似程度低的互相分開。聚類的方法很多,有基於分層的聚類,基於劃分的聚類,基於密度的聚類。不同的方法有各自的特點,適用於不同分布的資料。有的...