基於密度的聚類
定義:
1. 對於空間中的乙個物件,如果它在給定半徑e的鄰域中的物件個數大於密度閥值minpts,則該物件被稱為核心物件,否則稱為邊界物件。
2. 如果p是乙個核心物件,q屬於p的鄰域,那麼稱p直接密度可達q。
3. 如果存在一條鏈,滿足p1=p,pi=q,pi直接密度可達pi+1,則稱p密度可達q。
4. 如果存在o,o密度可達q和p,則稱p和q是密度連通的
5. 由乙個核心物件和其密度可達的所有物件構成乙個聚類。
a為核心物件,b為邊界物件,且a直接密度可達b,
但b不直接密度可達a,因為b不是乙個核心物件
c直接密度可達a,a直接密度可達b,所以c密度可達b,
同理b不密度可達c,但b和c密度連通
dbscan從任一物件p開始,根據引數e和minpts提取所有從p密度可達物件,得到乙個聚類。
1. 從任一物件p開始。
a) 如果p是核心物件,則p和p直接密度可達的所有物件被標記為類i。遞迴p直接密度可達的所有物件qi(即用qi代替p回到第一步)。
b) 如果p是乙個邊界物件,那麼p被標記為雜訊。
2. i++
3. 如果還有沒被標記的物件,則從中任選乙個作為p,回到第一步。
得到乙個類,同樣我們可以得到另乙個類
優點:1. 對雜訊不敏感。
2. 能發現任意形狀的聚類。
缺點:1. 聚類的結果與引數有很大的關係。
2. dbscan用固定引數識別聚類,但當聚類的稀疏程度不同時,相同的判定標準可能會破壞聚類的自然結構,即較稀的聚類會被劃分為多個類或密度較大且離得較近的類會被合併成乙個聚類
附:
基於密度的聚類
基於密度的聚類 定義 1.對於空間中的乙個物件,如果它在給定半徑e的鄰域中的物件個數大於密度閥值minpts,則該物件被稱為核心物件,否則稱為邊界物件。2.如果p是乙個核心物件,q屬於p的鄰域,那麼稱p直接密度可達q。3.如果存在一條鏈,滿足p1 p,pi q,pi直接密度可達pi 1,則稱p密度可...
DBSCAN基於密度的聚類演算法
1.密度 密度指的是在某距離內含有物件的最小數目。2.核心物件 如果乙個物件的eps鄰域內至少包含minpt個物件,則稱該物件是核心物件。3.直接密度可達 給定乙個物件集合d,如果p在q的eps鄰域內,並且q是乙個核心物件,則p是從q直接密度可達的。如下圖所示 eps可以想象為乙個超球體的半徑,mi...
基於密度的聚類演算法DBSCAN
可以發現,密度可達是直接密度可達的傳遞閉包,並且這種關係是非對稱的。密度相連是對稱關係。dbscan目的是找到密度相連物件的最大集合。eg 假設半徑 3,minpts 3,點p的e領域中有點,點m的e領域中有點,點q的e領域中有點,點o的e領域中有點,點s的e領域中有點.那麼核心物件有p,m,o,s...