譜類聚是用與解決圖的劃分問題,將無向圖劃分為兩個或者兩個以上的最優子圖,使子圖內部盡量相似,子圖間的距離盡量遠,譜類聚的最優目標通常有兩個準則:比例割集準則(ratio cut),規範化割集準則(normalized cut)。
r at
iocu
t(π)
=1k∑
i=1k
cut(
ci,c
i‾)∣
ci∣ratio cut(\pi) =\frac\sum_^k \frac )}
ratioc
ut(π
)=k1
i=1
∑k∣
ci∣
cut(
ci,
ci
)n or
mali
zedc
ut(π
)=1k
∑i=1
kcut
(ci,
ci‾)
vol(
ci)normalized cut(\pi)=\frac\sum_^ \frac ) }
normal
ized
cut(
π)=k
1i=
1∑k
vol(
ci)
cut(
ci,
ci
)譜類聚的兩種劃分:
對於如下空間向量:
如果要對item進行類聚,使用k-mean時,複雜度為o(t k n m),t為迭代次數,k為分類個數,n為item個數,m為特徵數。
如果,我們計算出item之間的相似度,便可以得到乙個只有item的相似矩陣,把item看作為圖中的節點,item之間的相似度.
對於圖的表示通常有 鄰接矩陣和拉普拉斯矩陣。
拉普拉斯矩陣:l=d-e, 其中d為對角矩陣,di為節點i的度。
在定義割集準則時我們定義了乙個cut函式來表達對分成兩個子集造成的損失。cut函式的值為為了分成兩個子集所割掉邊的加權和。
c ut
(s,t
)=∑e
eijcut(s,t)=\sum_e_
cut(s,
t)=e
∑ei
jq為n維向量用來表示i節點的分類,用於類標識
假設二分成兩類,s和t,用q(如公式2所示)表示分類情況,且q滿足公式3的關係,用於類標識。
那麼:
有:l為對稱半正定矩陣,保證所有特徵值都大於等於0;
l矩陣有唯一的0特徵值,其對應的特徵向量為1。 l矩陣有唯一的0特徵值,其對應的特徵向量為1。
離散求解q很困難,如果將問題鬆弛化為連續實數值,由瑞利熵的性質知其二將你型的最小值就是l的特徵值們(最小值,第二小值,…,最大值分別對應矩陣l的最小特徵值,第二小特徵值,…,最大特徵值,且極值q相應的特徵向量處取得,請參見瑞利熵(rayleigh quotient))。
將離散的聚類問題,鬆弛為連續的特徵向量,最小的系列特徵向量對應著圖最優的系列劃分方法。剩下的僅是將鬆弛化的問題再離散化,即將特徵向量再劃分開,便可以得到相應的類別,如將圖3中的最小特徵向量,按正負劃分,便得類和類。在k分類時,常將前k個特徵向量,採用kmeans分類。
同時考慮最小化cut 和劃分平衡,衡量標準為子圖各斷電的度的和。
令拉普拉斯矩陣為:
l =i
−d−1
/2ad
−1/2
l=i-d^ad^
l=i−d−
1/2a
d−1/
2ratio cut的目標是同時考慮最小化cut邊和劃分平衡,以免像圖1中的cut出乙個單獨的子集。
拉普拉斯矩陣為:
l =d
−al=d-a
l=d−
a資料準備,生成圖的鄰接矩陣;
歸一化普拉斯矩陣;歸一化普拉斯矩陣;
生成最小的k個特徵值和對應的特徵向量;3.生成最小的k個特徵值和對應的特徵向量;
將特徵向量kmeans聚類(少量的特徵向量);將特徵向量kmeans聚類(少量的特徵向量);
IBM 面向業務的社會計算
當社會計算在國內仍處在理論研究的階段時,ibm已經推出了web 2.0 實踐軟體 面向業務的社會計算。因為有個學弟的方向是基於此,而我對於此方面也很有趣,就去ibm官網查了相關的資料。社會計算開創了乙個新的時代,在這個時代,人們可以充分發揮自己的能力,創新也不再是自上而下,而是自下而上,因為個人和社...
發展遠端教育 定製系統需要社會計算
本文講的是發展遠端教育 定製系統需要社會計算,8月29日,由澳信傳媒it168主辦的2009年系統架構師大會在北京舉行。在下午的教育行業架構設計專場技術沙龍上,來自北京郵電大學網路教育學院的專家團隊以及華東師範大學的專家們一同分享了遠端教育平台架構的相關例項。吳永和博士的演講題目是 e learni...
社會計算 實現 Web 2 0 功能的最大化
2007 年 9 月 27 日 從本質上說,社會計算是支援互動和交流的 社會軟體工具的使用。使用 web2.0,大型企業的社會軟體對架構師產生了影響,使其更難以通過形式化的權力來進行管理,因為機構的權力通過許多方式遷移到社群。了解如何正確地面對這種趨勢,可以提公升整個開發社群的一致性和合作能力,並在...