一種新的矩形聚類演算法
聚類,是資料探勘一種重要的手段,通常所見到的聚類,大都是多維向量點、基於距離的聚類演算法,比如
k-means
、密度聚類等。本文所討論的是擴充套件物件的聚類,與多維向量點聚類有著明顯的差別,擴充套件物件是非點的物件,延用多維向量點之間的距離是無法準確表達擴充套件物件之間的聚合程度,因此,需要尋找一種新的衡量指標。
本文討論擴充套件物件中最簡單的形式——平行於座標軸的二維矩形,不僅因為矩形具有代表性、可以簡化問題討論的複雜性、同理推廣到高維擴充套件物件,而且其本身就有著廣泛的應用,在空間資料探勘、
r樹索引節點**演算法等方面,發揮著重要的作用。
問題的引子——
r樹索引中,當乙個節點關聯的圖元集合,資料量超過設定閾值(閾值通常是根據磁碟塊的大小設定的)的時候,將進行節點**,**成多個節點,使得圖元
mbr(最小外包矩形)聚合度高的圖元歸為乙個集合,成為乙個**節點,而集合與集合之間離散度高,**為不同的節點。這樣就提出乙個問題:怎樣將平面的一堆橫豎矩形,按聚合的程度,自適應地**到不同的集合中,使得集合內部聚合度高,集合之間離散度高?
平行於座標軸的矩形聚類具有哪些特點?如圖
特點如下:1,聚合形成的外包矩形依然是平行於座標軸;2,集合內的矩形聚合高、不同集合之間聚合度低(或者叫離散度高)。根據以上特點,需要找出集合與集合之間平行於座標軸的隔離帶(線)。隔離帶(線)是一種隔離程度相對比較大的帶狀區域或者線,隔離需要用一種指標來衡量,以量化隔離的程度,從中找出隔離程度相對比較大的帶或者線。下面給出隔離度相關的一些定義。
圖元矩形隔離度——兩個集合之間,無重疊時,隔離的帶狀面積,或者有重疊時,超出部分的圖元矩形面積之和,且重疊部分,面積為負值。
外包矩形隔離度——兩個集合之間,無重疊時,隔離的帶狀面積,或者有重疊時,超出部分形成的整個外包矩形之間的重疊面積,且面積為負值。
通過以上聚類劃分集合的方式,實現了矩形的聚類,用於r樹節點的**,構建起r樹空間索引。至於r樹的查詢,通過查詢視窗的矩形與r樹節點所代表的矩形進行求交比較即可實現查詢。
矩形插入操作,通過r樹查詢,確定由於新加進來的矩形所帶來的影響,判斷是否需要重新掃瞄網格,以重新聚類劃分。確定「外包矩形隔離度」下限閾值(可以採用對應節點劃分的次最大「外包矩形隔離度」作為閾值),可按最小擴張的mbr範圍,同時大於閾值要求的情況下,來推遲重新掃瞄網格,重新聚類劃分所帶來的效能開銷,實現矩形的插入操作。
本文提出的基於網格掃瞄的、聚類劃分矩形的演算法,一定程度上減少了聚類效果與矩形選取次序的相關性,使得聚類的效果更客觀合理,同時演算法簡單,時間複雜度主要與網格劃分的密度有關,與需要聚類的矩形個數關係不大,只在建立網格索引的時候,需要一次線性的運算。能達到這種效果的原因,主要在於,成功地運用了這種矩形聚類演算法的特點——平行於座標軸。同時此演算法思路,可以推廣到多維平行座標軸的類矩形的擴充套件物件的聚類,在多維正交索引,資料探勘中有著廣泛的應用。
一種基於密度峰值的聚類演算法
2014年science刊發了一篇標題為clustering by fast search and find of density peaks的文章,文章中介紹了一種基於密度峰值的聚類演算法。傳統的聚類演算法k means,通常不適用於非球形的簇。這裡所謂的球形簇是根據k means演算法基本原理得...
SCAN 一種網路結構聚類演算法
scan a structural clustering algorithm for networks 該演算法針對的是無向無權圖 如圖,節點0和節點5的鄰居點集分別是和,有4個共同的鄰居,聯絡較大 節點9和節點13,鄰居點集都是,2個共同鄰居,聯絡不大 節點6慘兮兮,雖然位於中間,但是都與他聯絡不...
SCAN 一種網路結構聚類演算法
一 scan演算法簡介 scan演算法是由機器學習裡的基於密度的聚類演算法dbscan改進而來的一種非重疊社團發現演算法,具有線性時間複雜度。其一大亮點在於能發現社團中橋節點 hub 和離群點 outlier 由圖可知,節點0 5共享了4個節點,節點9 13只共享了2個節點,顯然它們在聚類是應採取不...