可以在完備性和一致性之間保持平衡;
可以很好的處理稀疏、高緯度的短文本;
較其它的聚類演算法,在效能上表現更為突出。
圖1中的橫、縱座標分別表示評價度量方式和效能表現(基於資料視覺化的考慮,該效能表現基於不同的評價度量方式進行了歸一化處理),其中nmi(normalized mutual information)表示歸一化互資訊指數,h(homogeneity)表示一致性指數,c(completeness)表示完備性指數,ari(adjusted rand index)表示調整的蘭德指數,ami(adjusted mutual information)調整的互資訊指數。k-means是指k均值聚類演算法,是一種在資料探勘與分析領域非常流行的向量量化方法[4];hac是一種層次聚類分析方法[5];dmafp是一種具備去噪能力的長文字聚類方法[6]。
圖1 gsdmm和其它三種聚類演算法的在tweetset資料集上的效能表現
表1 gsdmm和其它兩種聚類演算法的在三個資料集上的效能表現
資料集指標
gsdmm
k-means
dmafp
tset
nmi0.874±0.007
0.732±0.007
0.852±0.009
h0.853±0.010
0.692±0.009
0.831±0.010
c0.896±0.006
0.775±0.006
0.875±0.007
ari0.693±0.043
0.133±0.030
0.657±0.051
ami0.831±0.012
0.639±0.011
0.814±0.015
sset
nmi0.896±0.006
0.759±0.008
0.868±0.008
h0.871±0.008
0.754±0.009
0.846±0.011
c0.921±0.005
0.764±0.009
0.892±0.007
ari0.746±0.014
0.262±0.017
0.703±0.018
ami0.853±0.009
0.708±0.008
0.819±0.012
tsset
nmi0.928±0.004
0.834±0.005
0.901±0.008
h0.911±0.005
0.836±0.005
0.889±0.006
c0.945±0.003
0.832±0.005
0.912±0.004
ari0.789±0.018
0.370±0.029
0.736±0.023
ami0.897±0.006
0.800±0.006
0.847±0.009
gsdmm採用模擬的方法——通過電影分組過程(movie group process,mgp)模擬gsdmm的聚類過程,通俗易懂地闡明了gsdmm聚類的全過程。mgp的模擬短文本聚類的內容如表2,短文本聚類問題可以看作通過每個學生看過的電影清單將學生分組的問題,自然的每一組的學生看的電影是類似的,即同一組的學生的電影清單是類似的,而不同組的學生的電影清單差異性是極大的。
表2 電影分組過程模擬短文本聚類的內容
mgp短文本聚類
所有學生
資料集、語料庫
每個學生、每個電影清單
每篇文件
學生看過的電影、電影清單上的電影
文件中的單詞
電影分組過程(mgp)如下:
1. 預定義k個組,將學生隨機分配到這k個組中
2. 針對每乙個學生,根據以下準則重新分配分組:
a. 選擇學生更多的小組
b. 選擇電影清單更相似的小組
3. 將第2步反覆進行,直至保留下的組趨於穩定
gsdmm的第1條優點的完備性和一致性分別在準則a和準則b上得到體現,準則a讓族簇的完備性更強,即讓同乙個小組盡可能多的包含屬於該小組的學生,而準則b讓族簇的一致性更強,即讓有著同樣電影清單的學生盡可能的在乙個小組中。
gsdmm通過下面的條件概率進行每個學生的所屬的小組的重新分配:
上面的條件概率公式中橙色虛線框(左邊虛線框)中的部分對應準則a,藍色虛線框(右邊虛線框)中的部分對應準則b。公式中的符號說明見表3。
表3 條件概率中的符號說明
符號說明
$_}$
文件所屬的族簇
$$
某乙個族簇
$}_}}$
除文件d所屬族簇外的所有族簇
$}$
所有文件
$_}}$
不包含文件d的族簇z中的文件數
$\alpha$
引數alpha
$d$
資料集中的所有文件數
$k$
引數k
$w$
某乙個單詞
$^_$
文件d中單詞w的出現次數
$^_}$
不包含文件d的族簇z中單詞w的出現次數
$_$
文件d的單詞數
$_}$
不包含文件d的族簇z中單詞數
$v$
資料集的所有不重複單詞數
$\beta$
引數beta
電影分組過程(實際上是gsdmm演算法)存在四個引數(除了表3中說明的三個引數,還有乙個是電影分組過程的第3步的隱含迭代次數),這四個引數對於模型的好壞有較大影響。引數k對於聚類族簇數量的影響見圖2,對於資料集tweetset,由圖可知初始族簇大小k值趨於300左右時,gsdmm的聚類效果基本與實際相符。引數alpha對於聚類族簇數量的影響見圖3,對於資料集tweetset,由圖可知引數alpha等於0.1時,gsdmm的聚類效果基本與實際相符。引數beta對於聚類族簇數量的影響見圖4,對於資料集tweetset,由圖可知引數beta等於0.08時,gsdmm的聚類效果基本與實際相符。迭代次數對於聚類族簇數量的影響見圖5,對於資料集tweetset,由圖可知迭代次數為20次時,gsdmm的聚類結果趨於平穩且效果基本與實際相符。
圖2 引數k對聚類族簇數量的影響
圖3 引數alpha對聚類族簇數量的影響
圖4 引數beta對聚類族簇數量的影響
圖5 迭代次數對聚類族簇數量的影響
上述gsdmm的四個引數為經驗引數,對於不同的資料集(各個資料集差異較大)最佳的引數取值也會不同。在實際應用中,當給定較好的經驗引數,gsdmm具備較好的聚類效果,這使得它具備較高的應用價值。
參考文獻
[1] acm sigkdd ——
[4] k-means clustering——
[5] hac——
[6] 《dirichlet process mixture model for document clustering with feature partition》——
關於考研數學的衝刺複習迎考的思考
9月14 日,2014 年考研數學考試大綱公布了,對於應屆本科畢業生而言,這是一件大事。考試大綱的發布標誌著複習迎考進入了乙個新階段 所謂 百公尺衝刺 階段 長話短說。對於考生而言,做好衝刺階段的複習迎考的第一件事情就是讀懂考試大綱。有人說,讀懂大綱有什麼難的?實際上,讀懂考試大綱,把握大綱的主要精...
學習筆記19 關於數學建模的思考與總結
我覺得,美國的教育哲學對排在前面的30 40 學生是有益的,因為這些學生不需要按部就班地訓練,他們可以跳躍式學習,給了他自由,他可以自己發展出很多東西,當然他的知識不可避免地會有很多漏洞,但如果他真是很聰明的話,將來他自己可以彌補這些漏洞。所以這種學生受到美國式的教育訓練,會比較快 比較容易成功。可...
關於博弈的思考
博弈,決策,永恆的主題 在博弈的過程中不要考慮是否公平,而是要考慮是否對你自己有利。這句話很值得思考。人生無時無刻不在博弈,無論是在微觀上,兩個人之間的談話 還是在巨集觀上每次人生抉擇的過程,博弈,總是在乙個恰當的視點上讓人設身處地的感受到。在博弈的過程中,公平與否,很多人都在抱怨 有的時候是與自己...