基於快速搜尋與尋找密度峰值的聚類方法

2021-07-10 06:40:50 字數 2520 閱讀 9781

該文章是我對於《clustering by fast search and find of density peaks》的學習筆記,原**鏈結我將在文後發出。

首先要感謝

lvxiong1990

博文的引導

一、模型物件:需要分類的點集(node set)

二、模型目的:以每乙個節點(node)的密度(density)為模型基礎,將待分類的點集進行聚類(cluster)

三、模型方法與注釋:

step1.計算所有節點(node)間的距離dij。

ps.該距離並沒有很明確的給出,只在文章末尾有提到「本文資料取自超立方體,計算dij時運用超立方體的週期邊界條件」,這個距離的意思很模糊。本人在用一組真實資料進行聚類計算dij時,運用的是歐式距離[1]計算兩個節點之間的距離。

step2.取乙個截斷距離dc[2]。

ps1.截斷距離dc是通過對所有dij進行公升序排列,由使用者自己設定乙個引數百分比,dc為該排列的引數百分比上的數

ex.dij有200個,使用者設定引數半分比為5%,則dc為dij公升序排列上第10(200×5%=10)個距離。

ps2.其中建議的的截斷距離的0.5%~5%。

step3.通過公式(1)計算每乙個節點i的密度

ρi。

ps1.χ(x)為一種0-1函式。當x<0時χ(x)=1,否則為χ(x)=0。

ps2.

ρi(密度)的意義實際上是 與節點i距離小於dc的節點個數(不包含節點i本身)

step4.對於每乙個節點i,都找到所有比該節點i密度大的節點j,選取其中最小的dij,記為δi。

ps.其中對於擁有最高密度(ρ)的節點,其δi為所有節點到節點i的最大距離

step5.以ρ(密度)為橫座標,以δ為縱座標,畫二維圖,以文中圖表為例

ps1.圖a為文中資料用例,圖b為所畫的二維圖表,可以看出節點1與節點5分布於右上位置,相對於圖a為兩個類的中心

ps2.如何在試驗中找到上述的中心節點,本人的方法是設定乙個ρmin、δmin[2],當某乙個節點的ρ、δ分別大於ρmin、δmin時,則該節點為中心點。

ps3.本人帶入真實資料時,發現會有重複的中心節點,就是說某乙個聚類(cluster)中有多個節點i,j,k,他們擁有相同的

ρ和δ,本人的方法是選取其中乙個序數最小的節點i,再將其他相同的節點j,k的δ分別修改為dij和dik。完成後再次進行step5。

step6.將剩餘點(即非中心點)進行分配。方法:對於每乙個剩餘點,其所屬的聚類是其最鄰近(nearest)且密度(density)比其大的節點的聚類。

ex.上圖a中,節點1為中心點,節點3是節點1的最鄰近,通過圖b,已知節點1的密度大於所有節點,則節點1的密度一定大於節點3,於是,節點3與節點1同一類。

ps.step6不斷進行迭代直到沒有剩餘點

step7.聚類的邊界問題與孤立點判斷。

步驟一:尋找類(cluster)的邊界點集合。

定義:如果乙個已分配的點與其他類中的點的距離在階段距離dc內,則該點為邊界點。乙個類(cluster)中的所有邊界點構成邊界點集。

步驟二:在每乙個類(cluster)中分別找出擁有最高密度的點,其密度設為ρb。

ps.每乙個類中都有不同的ρb。

步驟三:刪除類中的孤立點。

如果乙個類中的點的密度小於ρb,則刪除它,將它設為孤立點,否則保留。

[1]各種距離,

shiwei408,

[2]一種新型聚類方法,

lvxiong1990,

文章原文

《clustering by fast search and find of density peaks》

再次感謝

lvxiong1990博文的引導

聚類演算法(四) 基於密度峰值的聚類演算法

主要思想是尋找被低密度區與分離的高密度區域,基於的假設為 1 類簇中心點的密度大於周圍鄰居點的密度 2 類簇中心點與更高密度點之間的距離相對較大 因此有兩個需要計算的量 區域性密度pi和高區域性密度點距離 與高密度點之間的距離 i pi理解 其中dc表示截斷距離,這個公式的意義就是找到與第i個資料點...

一種基於密度峰值的聚類演算法

2014年science刊發了一篇標題為clustering by fast search and find of density peaks的文章,文章中介紹了一種基於密度峰值的聚類演算法。傳統的聚類演算法k means,通常不適用於非球形的簇。這裡所謂的球形簇是根據k means演算法基本原理得...

基於密度的聚類

基於密度的聚類 定義 1.對於空間中的乙個物件,如果它在給定半徑e的鄰域中的物件個數大於密度閥值minpts,則該物件被稱為核心物件,否則稱為邊界物件。2.如果p是乙個核心物件,q屬於p的鄰域,那麼稱p直接密度可達q。3.如果存在一條鏈,滿足p1 p,pi q,pi直接密度可達pi 1,則稱p密度可...