什麼是聚類
聚類簡單的說就是要把乙個文件集合根據文件的相似性把文件分成若干類,但是究竟分成多少類,這個要取決於文件集合裡文件自身的性質。下面這個圖就是乙個簡單的例子,我們可以把不同的文件聚合為3類。另外聚類是典型的無指導學習,所謂無指導學習是指不需要有人干預,無須人為文件進行標註。
聚類的評價
既然聚類是把乙個包含若干文件的文件集合分成若干類,像上圖如果聚類演算法應該把文件集合分成3類,而不是2類或者5類,這就設計到乙個如何評價聚類結果的問題。下面介紹幾種聚類演算法的評價指標,看下圖,
如圖認為x代表一類文件,o代表一類文件,方框代表一類文件,完美的聚類顯然是應該把各種不同的圖形放入一類,事實上我們很難找到完美的聚類方法,各種方法在實際中難免有偏差,所以我們才需要對聚類演算法進行評價看我們採用的方法是不是好的演算法。
評價方法一:purity
purity方法是極為簡單的一種聚類評價方法,只需計算正確聚類的文件數占總文件數的比例:
其中ω = 是聚類的集合ωk表示第k個聚類的集合。c = 是文件集合,cj表示第j個文件。n表示文件總數。
如上圖的purity = ( 3+ 4 + 5) / 17 = 0.71
其中第一類正確的有5個,第二個4個,第三個3個,總文件數17。
purity方法的優勢是方便計算,值在0~1之間,完全錯誤的聚類方法值為0,完全正確的方法值為1。同時,purity方法的缺點也很明顯它無法對退化的聚類方法給出正確的評價,設想如果聚類演算法把每篇文件單獨聚成一類,那麼演算法認為所有文件都被正確分類,那麼purity值為1!而這顯然不是想要的結果。
評價方法二:ri
實際上這是一種用排列組合原理來對聚類進行評價的手段,公式如下:
其中tp是指被聚在一類的兩個文件被正確分類了,tn是只不應該被聚在一類的兩個文件被正確分開了,fp只不應該放在一類的文件被錯誤的放在了一類,fn只不應該分開的文件被錯誤的分開了。對上圖
tp+fp = c(2,6) + c(2,6) + c(2,5) = 15 + 15 + 10 = 40 其中c(n,m)是指在m中任選n個的組合數。
tp = c(2,5) + c(2,4) + c(2,3) + c(2,2) = 20
fp = 40 - 20 = 20
相似的方法可以計算出tn = 72 fn = 24
所以ri = ( 20 + 72) / ( 20 + 20 + 72 +24) = 0.68
評價方法三:f值
這是基於上述ri方法衍生出的乙個方法,
ri方法有個特點就是把準確率和召回率看得同等重要,事實上有時候我們可能需要某一特性更多一點,這時候就適合f值方法
聚類的評價指標
我們知道,監督學習的評價指標是準確率 召回率 f1 f f 1 f beta f1 f roc auc等等,但聚類方法在大多數情況下資料是沒有標籤的,這些情況下聚類就不能使用以上的評價指標了。聚類有自己的評價指標,大多數聚類的評價指標是通過緊湊性和可分性來定義的。緊湊性基本上是衡量乙個聚類中的元素彼...
聚類評價指標學習
一般分為 外部 內部 相對,這三種評價指標。正確聚類的樣本數佔總樣本的比例 非常直觀且簡單的計算法方法。即歸一化互資訊,計算公式如下 互資訊指的是兩個隨機變數之間的關聯程度,標準互資訊是將互資訊歸一化0 1。值越高越好。ri是蘭德指數,ari範圍是 1,1 值越大意味著聚類結果與真實情況越吻合。從廣...
聚類結果的評價指標
看到了兩篇部落格,感興趣的可以看一下 首先看乙個例子 ps 別人的 認為x代表一類文件,o代表一類文件,方框代表一類文件,聚成了3個cluster,現在要對聚類的結果進行評價 一 purity 純度 purity 正確聚類的文件數占總文件的比例 例如上面的例子,purity 5 4 3 17 0.7...