SGE日誌分析聚類演算法

2021-06-19 00:47:46 字數 465 閱讀 1838

基於kmeans的改進演算法(針對一維):

【演算法】

1.設定閾值,使用固定篩子的方式將物件分配到各個不同的「篩孔」裡,並計算落入每個「篩孔」中的物件的平均值,即初始質心。

2.對步驟1中的初始質心進行類似步驟1方法的聚類,得到初始質心的聚類結果。

3.將步驟2中的初始質心聚類結果作為聚類的初始質心進行聚類,對於每個物件選擇最近的質心,若到達每個質心的距離都超過設定的閾值,則建立新類。

4.計算滿意度(越低越好),重複步驟2-3,獲得新的滿意度,如果滿意度不再降低,則收斂。

【特點】

1.不需要指定目標聚類數目。

2.保證了每個簇的凝聚程度是比較好的,但是簇的個數比較多,而且無法應對不同密度的情況。

【衡量聚類結果】

1.按質心值排序,計算相鄰值之差的絕對值,然後相加。

【改進】

1.將相鄰的簇內物件數比較多的簇進行合併,從而減少簇的個數。

Canopy聚類演算法分析

canopy聚類演算法是可以並行執行的演算法,資料並行意味著可以多執行緒進行,加快聚類速度,開源ml庫mahout 使用。一 概念 與傳統的聚類演算法 比如 k means 不同,canopy 聚類最大的特點是不需要事先指定 k 值 即 clustering 的個數 因此具有很大的實際應用價值。與其...

聚類演算法 近鄰聚類演算法

time is always too short for those who need it,but for those who love,it lasts forever.dracula untold 近鄰聚類法同樣是一種基於距離閾值的聚類演算法。coding utf 8 近鄰聚類演算法的pyth...

聚類演算法 層次聚類演算法

層次聚類演算法 hierarchical clustering method 又稱為系統聚類法 分級聚類法。層次聚類演算法又分為兩種形式 凝聚層次聚類 首先將每個物件作為乙個簇,然後合併這些原子簇為越來越大的簇,直到某個終結條件被滿足。層次聚類 首先將所有物件置於乙個簇中,然後逐漸細分為越來越小的簇...