採用了無監督方法infomap進行人臉聚類github,在公開資料集上ms-celeb-1m、youtube-faces、deepfashion獲得較當前主流方法(如gcn人臉聚類等監督方法)同等或更優的效果.
通過faiss加速鄰接邊的構建,提高聚類速度,單批百萬資料聚類僅需幾分鐘. 效果及效能測試詳見下表.
about infomap
l-gcn: linkage-based face clustering via graph convolution network, cvpr 2019
gcn-d: learning to cluster faces on an affinity graph, cvpr 2019 (oral)
gcn-v+gcn-e: learning to cluster faces via confidence and connectivity estimation, cvpr 2020
ms-celeb-1m : part1_test (584k)、youtube-faces、deepfashion
download
python face-cluster-by-infomap
method
precision
recall
f-score
chinese whispers (k=80, th=0.6, iters=20)
55.49
52.46
53.93
99.77
7.213.42
minibatchkmeans (ncluster=5000, bs=100)
45.48
80.98
58.25
knn dbscan (k=80, th=0.7, eps=0.25, min=1)
95.25
52.79
67.93
fasthac (dist=0.72, single)
92.07
57.28
70.63
daskspectral (ncluster=8573, affinity=『rbf』)
78.75
66.59
72.16
cdp (single model, th=0.7)
80.19
70.47
75.02
l-gcn (k_at_hop=[200, 10], active_conn=10, step=0.6, maxsz=300)
74.38
83.51
78.68
gcn-d (2 prpsls)
95.41
67.77
79.25
gcn-d (5 prpsls)
94.62
72.59
82.15
gcn-d (8 prpsls)
94.23
79.69
86.35
gcn-d (20 prplss)
94.54
81.62
87.61
gcn-d + gcn-s (2 prpsls)
99.07
67.22
80.1
gcn-d + gcn-s (5 prpsls)
98.84
72.01
83.31
gcn-d + gcn-s (8 prpsls)
97.93
78.98
87.44
gcn-d + gcn-s (20 prpsls)
97.91
80.86
88.57
gcn-v
92.45
82.42
87.14
gcn-v + gcn-e
92.56
83.74
87.93
infomap(ours)(k=50,min_sim=0.58)
95.50
92.51
93.98
[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-mrasrz9k-1606379388603)(./image/evaluate.png)]
method
pairwise f-score
bcubed f-score
nmichinese whispers (k=160, th=0.75, iters=20)
72.9
70.55
93.25
76.45
75.45
94.34
kmeans (ncluster=1436)
67.86
75.77
93.99
knn dbscan (k=160, th=0., eps=0.3, min=1)
91.35
89.34
97.52
fasthac (dist=0.72, single)
93.07
87.98
97.19
gcn-d (4 prpsls)
94.44
91.33
97.97
infomap(ours)(k=400,min_sim=0.56)
92.82
91.78
98.04
method
pairwise f-score
bcubed f-score
nmichinese whispers (k=5, th=0.7, iters=20)
31.22
53.25
89.8
25.04
52.77
88.71
kmeans (ncluster=3991)
32.02
53.3
88.91
knn dbscan (k=4, th=0., eps=0.1, min=2)
25.07
53.23
90.75
fasthac (dist=0.4, single)
22.54
48.77
90.44
meanshift (bandwidth=0.5)
31.61
56.73
89.29
spectral (ncluster=3991, affinity=『rbf』)
29.6
47.12
86.95
daskspectral (ncluster=3991, affinity=『rbf』)
24.25
44.11
86.21
cdp (single model, k=2, th=0.5, maxsz=200)
28.28
57.83
90.93
l-gcn (k_at_hop=[5, 5], active_conn=5, step=0.5, maxsz=50)
30.7
60.13
90.67
gcn-d (2 prpsls)
29.14
59.09
89.48
gcn-d (8 prpsls)
32.52
57.52
89.54
gcn-d (20 prpsls)
33.25
56.83
89.36
gcn-v
33.59
59.41
90.88
gcn-v + gcn-e
38.47
60.06
90.5
infomap(ours)(k=400,min_sim=0.88)
38.67
60.48
90.97
nodes
edges
timecount
gpu memory
500000
16535263
160(s)
2745(mib)
1000000
30206572
400(s)
3235(mib)
聚類 clustering) 一種無指導的學習演算法
聚類是一種無監督的學習的結果,聚類的結果就是產生一組集合,集合中的物件與同集合中的物件彼此相似,與其他集合的物件相異。聚類演算法是推薦給初學者的演算法,因為該演算法不僅十分簡單,而且還足夠靈活以面對大多數問題都能給出合理的結果。常用的聚類演算法 k均值聚類演算法 k均值聚類是一種通用目的的演算法,聚...
一種新的矩形聚類演算法
一種新的矩形聚類演算法 聚類,是資料探勘一種重要的手段,通常所見到的聚類,大都是多維向量點 基於距離的聚類演算法,比如 k means 密度聚類等。本文所討論的是擴充套件物件的聚類,與多維向量點聚類有著明顯的差別,擴充套件物件是非點的物件,延用多維向量點之間的距離是無法準確表達擴充套件物件之間的聚合...
一種基於密度峰值的聚類演算法
2014年science刊發了一篇標題為clustering by fast search and find of density peaks的文章,文章中介紹了一種基於密度峰值的聚類演算法。傳統的聚類演算法k means,通常不適用於非球形的簇。這裡所謂的球形簇是根據k means演算法基本原理得...