ϵ-鄰域的距離閾值是我們設定的半徑r
直接密度可達:若某點p在點q的 r 鄰域內,且q是核心點則p-q直接密度可達。
密度可達:若有乙個點的序列q0、q1、…qk,對任意qi~qi-1是直接密度可達的 ,則稱從q0到qk密度可達,這實際上是直接密度可達的「傳播」。
密度相連:若從某核心點p出發,點q和點k都是密度可達的 ,則稱點q和點k是密度相連的。
邊界點:屬於某乙個類的非核心點,不能發展下線了
雜訊點:不屬於任何乙個類簇的點,從任何乙個核心點出發都是密度不可達的
上圖中,點的分類分別是:
a——核心物件
b,c——邊界點:因為這兩個點不能再發展下線了
n——離群點:因為這個點所代表的這一片區域再也找不到其他點了,離群了
for(資料集d中每個物件p) do
if (p已經歸入某個簇或標記為雜訊) then
continue;
else
檢查物件p的eps鄰域 neps(p) ;
if (neps(p)包含的物件數小於minpts) then
標記物件p為邊界點或雜訊點;
else
標記物件p為核心點,並建立新簇c, 並將p鄰域內所有點加入c
for (neps(p)中所有尚未被處理的物件q) do
檢查其eps鄰域neps(q),若neps(q)包含至少minpts個物件,則將neps(q)中未歸入任何乙個簇的物件加入c;
end for
end if
end if
end for
來自:
不需要指定簇的個數,演算法會分配好的
可以發現任意形狀的簇,這是比k-means強大很多的地方
擅長找到離群點,演算法會檢測出來的
我們提供兩個引數就夠了,不用過度費腦
高維度的資料處理還是有些困難
引數難以選擇(引數對結果影響很大)
在sklearn中執行效率比較慢(可以採用資料削減策略)
學習筆記 《MySQL必知必會》 第二十章
在update語句中使用子查詢 ignore關鍵字 如果用update語句更新多行,並且在更新這些行中的一行或多行時出乙個現錯誤,則整個update操作被取消 錯誤發生前更新的所有行被恢復到它們原來的值 為即使是發生錯誤,也繼續進行更新,可使用ignore關鍵字,刪除資料 delete delete...
機器學習之 聚類學習筆記
聚類試圖將資料集中的樣本劃分為若干個通常是不相交的子集,每個子集 稱為乙個 簇 cluster 通過這樣的劃分,每個簇可能對應於一些潛在的概念 類別 如 淺色瓜 深色瓜 有籽瓜 無籽瓜 甚至 本地瓜 外地瓜 等。這些概念對聚類演算法而言事先是未知的,聚類過程 僅能自動形成簇結構,簇所對應的概念語義需...
第二十四周學習筆記
自監督關鍵點檢測和特徵描述子生成 自監督訓練方法 使用全卷積神經網路架構,乙個共享的encoder對進行編碼,兩個decoder分別檢測關鍵點和生成描述子 outperform lift in almost all metrics quantitatively scores strongly in ...