社會計算筆記譜類聚

譜類聚是用與解決圖的劃分問題，將無向圖劃分為兩個或者兩個以上的最優子圖，使子圖內部盡量相似，子圖間的距離盡量遠，譜類聚的最優目標通常有兩個準則：比例割集準則（ratio cut），規範化割集準則（normalized cut）。

r at

iocu

t(π)

=1k∑

i=1k

cut(

ci,c

i‾)∣

ci∣ratio cut(\pi) =\frac\sum_^k \frac )}

ratioc

ut(π

)=k1

i=1

∑k∣

ci∣

cut(

ci,

)n or

mali

zedc

ut(π

)=1k

∑i=1

kcut

(ci,

ci‾)

vol(

ci)normalized cut(\pi)=\frac\sum_^ \frac ) }

normal

ized

cut(

π)=k

1i=

1∑k

vol(

ci)

cut(

ci,

)譜類聚的兩種劃分：

對於如下空間向量：

如果要對item進行類聚，使用k-mean時，複雜度為o(t k n m),t為迭代次數，k為分類個數，n為item個數，m為特徵數。

如果，我們計算出item之間的相似度，便可以得到乙個只有item的相似矩陣，把item看作為圖中的節點，item之間的相似度.

對於圖的表示通常有鄰接矩陣和拉普拉斯矩陣。

拉普拉斯矩陣：l=d-e，其中d為對角矩陣，di為節點i的度。

在定義割集準則時我們定義了乙個cut函式來表達對分成兩個子集造成的損失。cut函式的值為為了分成兩個子集所割掉邊的加權和。

c ut

(s,t

)=∑e

eijcut(s,t)=\sum_e_

cut(s,

t)=e

∑ei

jq為n維向量用來表示i節點的分類，用於類標識

假設二分成兩類，s和t，用q(如公式2所示)表示分類情況，且q滿足公式3的關係，用於類標識。

那麼：

有:l為對稱半正定矩陣，保證所有特徵值都大於等於0；

l矩陣有唯一的0特徵值，其對應的特徵向量為1。 l矩陣有唯一的0特徵值，其對應的特徵向量為1。

離散求解q很困難，如果將問題鬆弛化為連續實數值，由瑞利熵的性質知其二將你型的最小值就是l的特徵值們(最小值，第二小值，…，最大值分別對應矩陣l的最小特徵值，第二小特徵值，…，最大特徵值，且極值q相應的特徵向量處取得，請參見瑞利熵(rayleigh quotient))。

將離散的聚類問題，鬆弛為連續的特徵向量，最小的系列特徵向量對應著圖最優的系列劃分方法。剩下的僅是將鬆弛化的問題再離散化，即將特徵向量再劃分開，便可以得到相應的類別，如將圖3中的最小特徵向量，按正負劃分，便得類和類。在k分類時，常將前k個特徵向量，採用kmeans分類。

同時考慮最小化cut 和劃分平衡,衡量標準為子圖各斷電的度的和。

令拉普拉斯矩陣為：

l =i

−d−1

/2ad

−1/2

l=i-d^ad^

l=i−d−

1/2a

d−1/

2ratio cut的目標是同時考慮最小化cut邊和劃分平衡，以免像圖1中的cut出乙個單獨的子集。

拉普拉斯矩陣為：

l =d

−al=d-a

l=d−

a資料準備，生成圖的鄰接矩陣；

歸一化普拉斯矩陣；歸一化普拉斯矩陣；

生成最小的k個特徵值和對應的特徵向量；3.生成最小的k個特徵值和對應的特徵向量；

將特徵向量kmeans聚類(少量的特徵向量)；將特徵向量kmeans聚類(少量的特徵向量)；

社會計算筆記譜類聚

IBM 面向業務的社會計算

發展遠端教育定製系統需要社會計算

社會計算實現 Web 2 0 功能的最大化

社會計算筆記 譜類聚

IBM 面向業務的社會計算

發展遠端教育 定製系統需要社會計算

社會計算 實現 Web 2 0 功能的最大化

相關推薦

社會計算筆記譜類聚

發展遠端教育定製系統需要社會計算

社會計算實現 Web 2 0 功能的最大化