AP聚類演算法學習

2021-07-29 06:06:32 字數 1822 閱讀 9190

最近看一篇**,發現了這個聚類演算法,在網上找了點資料,怕自己忘了,在這裡將資料整理一下。

宣告:下面這段文字**:

首先簡要介紹一下ap演算法,跟其他聚類演算法的不同之處是,ap在開始時,將所有節點都看成潛在的聚類中心,然後通過節點之間的通訊,去找出最合適的聚類中心,並將其他節點劃分到這些中心下去,所以我們可以認為,ap演算法所要做的事情就是去發現這些聚類中心。

ap的輸入是乙個節點間的相似度矩陣,s,其中s(i,j)表示節點i和節點j之間的相似度,也表明了,j作為i的聚類中心的合適程度,這個相似度的計算可以根據具體應用場景,這裡未免誤導不作相似度的假設。其中s(k,k)表示節點k作為k的聚類中心的合適程度,可以理解為,節點k成為聚類中心合適度,在最開始時,這個值是初始化的時候使用者給定的值,會影響到最後聚類的數量。

ap中節點間傳遞的訊息為兩類:吸引度和歸屬度。

首先,吸引度是節點i傳遞向節點k的資訊,傳達了節點k對節點i的吸引度,記為r(i,k),那麼如何來衡量這個吸引度,其實吸引度是乙個相對的概念,先前我們有相似度矩陣記錄了k成為i的聚類中心的合適程度,那麼這裡我們只需要證明k比其他節點更合適了就可以了,那麼其他節點是否合適這個如何進行衡量呢,是否合適其實就是看這兩個節點是否相互認可,對於其他節點k』我們有s(i,k』)表示節點k』作為節點i的聚類中心的合適度,那麼再定義乙個a(i,k』)表示i對節點k』的認可程度(歸屬度),這兩個值相加,a(i,k』) + s(i,k』),就可以計算出節點k』作為節點i的聚類中心的合適程度了,這裡,在所有其他節點k』中,找出最大的a(i,k』) + s(i,k』),即max,再使用s(i,k) - max 就可以得出k對i的吸引度了,也就是第乙個公式:

r(i,k) = s(i,k) - max 其中k != k』

接下來計算上面提到的歸屬度a(i,k),表示了節點i選擇節點k作為它的聚類中心的合適程度,這裡要考慮到的乙個思想是:如果節點k作為其他節點i』的聚類中心的合適度很大,那麼節點k作為節點i的聚類中心的合適度也可能會較大,由此就可以先計算節點k對其他節點的吸引度,r(i』,k),然後做乙個累加和表示節點k對其他節點的吸引度:

∑max

ps.這裡在r(i』,k)跟0之間取乙個大的原因是因為s(i』,k)一般會初始化成負值,導致r(i』,k)計算出來也有可能是負值,這樣的好處是,最後可以方便找出合適的聚類中心在完成所有計算後。

然後再加上r(k,k),這裡為什麼要加上r(k,k),根據吸引度公式,我們可以看出,其實r(k,k),反應的是節點k有多不適合被劃分到其他聚類中心下去,這裡的公式中,將k有多適合成為其他節點的聚類中心:∑max加上它有多不適合被劃分到其他聚類中心下去:r(k,k)

就有了計算公式:

a(i,k)=min}

為了不讓這個值過大,影響整體結果,將這個值控制在0以下。

其中a(k,k)的定義稍微有些不一樣,只用∑max就可以了

主要反映k作為聚類中心的能力。

s(i,k)就相當於i對選k這個人的乙個固有的偏好程度

r(i,k)表示用s(i,k)減去最強競爭者的評分,可以理解為k在對i這個選民的競爭中的優勢程度

r(i,k)的更新過程對應選民i的各個參選人的挑選(越出眾越有吸引力)

a(i,k):從公式裡可以看到,所有r(i』,k)>0的值都對a有正的加成。對應到我們這個比喻中,就相當於選民i通過網上關於k的民意調查看到:有很多人(即i』們)都覺得k不錯(r(i』,k)>0),那麼選民i也就會相應地覺得k不錯,是個可以相信的選擇

a(i,k)的更新過程對應關於參選人k的民意調查對於選民i的影響(已經有了很多跟隨者的人更有吸引力)

兩者交替的過程也就可以理解為選民在各個參選人之間不斷地比較和不斷地參考各個參選人給出的民意調查。

r(i,k)的思想反映的是競爭,a(i,k)則是為了讓聚類更成功。

聚類演算法學習

聚類是一種非監督學習方法 在乙個典型的監督學習中,我們有乙個有標籤的訓練集,我們的目標是找到能夠區分正 樣本和負樣本的決策邊界,在這裡的監督學習中,我們有一系列標籤,我們需要據此擬合一 個假設函式。與此不同的是,在非監督學習中,我們的資料沒有附帶任何標籤,我們拿到的 資料就是這樣的 在這裡我們有一系...

AP聚類演算法原理

ap演算法在開始時,將所有的節點都看成潛在的聚類中心,然後通過節點之間的通訊找到最合適的聚類中心。輸入為節點間的相似度矩陣s 其中s i,j 表示節點i與節點j之間的相似度,也表明了j作為i的聚類中心的合適程度。s k,k 表示節點k作為k的聚類中心的合適程度,即節點k成為聚類中心的合適程度。在最開...

聚類演算法學習筆記

a 距離和相似度測量 這裡用的是基於先驗知識的個體分類準則。資料物件一般是用一組多維特指向量描述的,該特徵可以是定量的或者是定性的,是連續的或二值的 不連續的 是名詞性的或順序性的,這些性質決定了其相似度的度量法則。定義在資料組x上的不相似函式或距離函式必須滿足以下條件 1 對稱性2 正則性d xi...