原理:先設定兩個先驗值r1,r2,我把他們理解為內圈外圈,大家可以跟我學。將所有樣本放入乙個列表,隨機選乙個樣本拿出來作為第乙個簇的簇中心點,然後從列表中剩下的所有樣本中隨機抽取乙個,,計算其與簇中心點的距離。
如果大於外圈r1,則不屬於此簇,而是拿出去單獨成為一簇,並作為簇中心點,從列表中刪除此樣本
如果大於內圈r2,且小於外圈r1,則屬於此簇,放入簇中。
如果小於內圈r2,哎呀,了不得呀!這傢伙和簇中心點很是親近吶,這麼親近,當然要更新一下簇中心點以示尊敬了。把這個點和簇中心點相加取均值作為此簇新的簇中心點。從列表中刪除此樣本
直到列表中沒有樣本為止
canopy演算法得到的最終結果的值,聚簇之間是可能存在重疊的,但是不會
存在某個物件不屬於任何聚簇的
應用場景:
canopy演算法流程 Canopy聚類演算法
一 概念 與傳統的聚類演算法 比如k means 不同,canopy聚類最大的特點是不需要事先指定k值 即clustering的個數 因此具有很大的實際應用價值。與其他聚類演算法相比,canopy聚類雖然精度較低,但其在速度上有很大優勢,因此可以使用canopy聚類先對資料進行 粗 聚類,得到k值後...
Canopy演算法實戰總結
通過canopy演算法實戰了解了mapreduce的coding套路,job input output format map reduce configuration等的設定,檔案序列化和反序列化sequencefile 理解文章要感謝mahout 原始碼解析之聚類 canopy演算法 下面大概說收...
Canopy聚類演算法分析
canopy聚類演算法是可以並行執行的演算法,資料並行意味著可以多執行緒進行,加快聚類速度,開源ml庫mahout 使用。一 概念 與傳統的聚類演算法 比如 k means 不同,canopy 聚類最大的特點是不需要事先指定 k 值 即 clustering 的個數 因此具有很大的實際應用價值。與其...