根據題意可知,我們的目的是檢測將xi
劃入聚類簇cr
是否會違背m與
c 中的約束。
在這裡不能只簡單考慮該樣本是否滿足與某些約束條件內樣本的「必連」和「勿連」條件,而是需要分析到底是待聚類樣本違約還是其約束集合中的樣本存在違約,同時需要考慮必連樣本的傳遞性。
對於必連樣本,考慮如下圖1的情況,左右兩圖中的r,
rm代表樣本xi
和它的乙個必連(相連)樣本xm
對應的兩個聚類中心,虛線代表聚類簇邊界(即聚類中心垂直平分線),圓的大小代表各點離相應聚類中心的距離,顯然,此時有樣本違反了必連約束。
首先考慮圖(1)和圖(3),此時∥x
i−r∥
>∥x
m−rm
∥ ,按照歐氏距離聚類,我們會覺得xi
,xm 分類都很正確,但由於兩樣本是必連的,所以肯定有乙個的聚類結果是錯誤的。此時,我們可以將xi
,xm 同時分到r,
rm簇中,然後比較孰優孰劣,那麼距離更相近的樣本,聚到一類可能性更高,假設各簇r,
rm到圖中自己的對應樣本xi
,xm 的聚類概率均為100%,向外逐漸減小,則顯然在圓圈外的樣本離圓圈越近,其被聚到這一簇的可能性越高。由此原則可知,對於黑色的一對必連樣本,∥x
i−rm
∥−∥x
m−rm
∥>∥x
m−r∥
−∥xi
−r∥,
此時xm
違反了相連約束,xi
並未違反必連約束,我們是要對xi
聚類,因此在這種情況下xi
並未違反必連約束;而當xm
與r的距離比xi
還小時(甚至出現(3)這種情況),依然是xm
違反了相連約束。
而對於灰色的一對必連樣本,我們按照∥x
i−rm
∥−∥x
m−rm
∥ 的大小同時擴充套件黑色的簇邊界為灰色的簇邊界,顯然兩條簇邊界具有相同的聚類可能性,但由於xm
落到了灰色大圓外,使得∥x
i−rm
∥−∥x
m−rm
∥≤∥x
m−r∥
−∥xi
−r∥,
此時xi
違反了相連約束。
對於圖(2)和圖(4),∥x
i−r∥
≤∥xm
−rm∥
,此時同理可得:當∥x
i−rm
∥−∥x
m−rm
∥>∥x
m−r∥
−∥xi
−r∥,
此時xm
違反了相連約束。 當∥
xi−r
m∥−∥
xm−r
m∥≤∥
xm−r
∥−∥x
i−r∥
, 此時xi
違反了相連約束。
綜上所述可知,對於必連樣本,若存在xm對於勿連約束條件,我們可考慮如下所示的兩種情況,即勿連樣本的最近聚類簇中心一致,但我們需要分析是待聚類樣本xi滿足 ∥x
i−rm
∥+∥x
i−r∥
≤∥xm
−rm∥
+∥xm
−r∥ 那麼
xi違反必連約束。
還是勿連樣本xc
違反了勿連約束。
對於左圖,顯然∥x
i−r∥
c−r∥
,根據上述方法同樣的原理可知,若xc
的最佳聚類簇為
r ,則距離
r更近的xi
更應該屬於簇
r ,因此出現矛盾,而若xi
的最佳聚類簇為
r ,則距離
r更遠的xc
不見得屬於簇
r ,因此此時應當是xc
違反勿連約束。
而對於右圖,顯然情況相反,∥x
i−r∥
>∥x
c−r∥
,與上段同理可知:此時應當是xi
違反勿連約束。
綜上可知,對於勿連樣本,若存在xc顯然,對於(x滿足 ∥x
i−r∥
>∥x
c−r∥
那麼 x
i 違反勿連約束。
1,x2
),(x
2,x3
)∈m ,滿足相連的傳遞性,因此可先將滿足相互連通關係的∪x
i 記為集合xm
,且滿足x1
+x2+
…xm=
m .
同理,對於(x
1,x2
),(x
2,x3
)∈c ,不滿足傳遞性,因此可直接將含有xi
的 記為xc
,滿足x1
+x2+
…xc=
c .
基於上述對必連約束和勿連約束的檢測,可以得到如下的違約檢測演算法。
01: is_vio
late
=fal
se02: 找到xi
所屬的連通關係集合xm
=
03: if
x≠∅:
04: fo
rxm∈
xm:
05: 基於
k找到與
xm距離
最近的簇
rm=arg
minj∈k
∥xm−
μj∥
06: if
rm≠r
and∥
xm−μ
rm∥+
∥xm−
μr∥≥
∥xi−
μrm∥
+∥xi
−μr∥
: 07: is
_vio
late
=tru
e
08: br
eak
09:
if ¬is
_vio
late
:
10: 找到
xi所屬的勿連關係集合xc
=
11: if
x≠∅:
12:
for xc
∈xc :
13: 基於
k找到與
xc距離
最近的簇
rc=arg
minj∈k
∥xc−
μj∥
14:
if rm=
rand
∥xc−μr∥
i−μr
∥ :
15: is
_vio
late
=tru
e
16: br
eak
機器學習 周志華 個人練習9 6
根據定義,如上圖所示,最大和最小距離分別代表聚類簇i與j間距離最近的樣本點或距離最遠樣本點之間的距離,而其具體幾何含義是什麼呢?根據個人的理解,參考了icefire的回答但有一些不同看法,我用維基百科上關於hausdorff distance的示意圖進行表示。如下圖所示,圖中左下方的黑色虛線代表ha...
機器學習周志華筆記
1,監督學習 分類 回歸 無監督學習 聚類 2,決策樹 根據資訊增益的大小來確定節點 資訊熵 描述事務確定性程度的值 需要多少個bit來描述資訊 ent d pklog2pk 資訊增益 資訊熵 某個屬性劃分的平均資訊熵 該屬性劃分純度 3,支援向量機中對超平面的理解 劃分超平面用以下線性方程表示 w...
周志華 機器學習 筆記
學習演算法自身的歸納偏好與問題是否相配,往往會起到決定作用。對於上面這句話 你的輸入資料被怎麼處理,最終得到什麼結果,我認為偏好指的就是這個處理的過程。線性非線性?那些feature忽略掉?怎麼利用這些資料?更具體一些,你用網路處理,還是傳統方法,資料的分布和你的處理方法相符嗎?沒有免費的午餐定理 ...