pam演算法的原理:
選用簇中位置最中心的物件,試圖對n個物件給出k個劃分;代表物件也被稱為是中心點,其他物件則被稱為非代表物件;最初隨機選擇k個物件作為中心點,該演算法反覆地用非代表物件來代替代表物件,試圖找出更好的中心點,以改進聚類的質量;在每次迭代中,所有可能的物件對被分析,每個對中的乙個物件是中心點,而另乙個是非代表物件。對可能的各種組合,估算聚類結果的質量;乙個物件oi可以被使最大平方-誤差值減少的物件代替;在一次迭代中產生的最佳物件集合成為下次迭代的中心點。
pam演算法的偽**如下:
輸入:簇的數目k和包含n個物件的資料庫
輸出:k個簇,使得所有物件與其距離最近中心點的相異度總和最小
(1) 任意選擇k個物件作為初始的簇中心點 (2) repeat
(3) 指派每個剩餘物件給離他最近的中心點所表示的簇
(4) repeat
(5) 選擇乙個未被選擇的中心點oi
(6) repeat
(7) 選擇乙個未被選擇過的非中心點物件oh
(8) 計算用oh代替oi的總代價並記錄在s中
(9) until 所有非中心點都被選擇過
(10) until 所有的中心點都被選擇過
(11) if 在s中的所有非中心點代替所有中心點後的計算出總代價有小於0的存在,then找出s中的用非中心點替代中心點後代價最小的乙個,並用該非中心點替代對應的中心點,形成乙個新的k個中心點的集合;
(12) until 沒有再發生簇的重新分配,即所有的s都大於0.
該演算法的優點與缺點:
(1) 消除了k-平均演算法對於孤立點的敏感性。
(2) k-中心點方法比k-平均演算法的代價要高
(3) 必須指定k
(4) pam對小的資料集非常有效,對大資料集效率不高。特別是n和k都很大的時候。
文字挖掘之聚類演算法之CLARA聚類演算法
clara 大型應用中的聚類方法 kaufmann and rousseeuw in 1990 不考慮整個資料集,而是選擇資料的一小部分作為樣本.clara演算法的步驟 它從資料集中抽取多個樣本集,對每個樣本集使用pam,並以最好的聚類作為輸出 clara 演算法的步驟 1 for i 1 to v...
文字挖掘之文字聚類的介紹以及應用
文字聚類是乙個將文字集分組的全自動處理過程,是一種典型的無指導的機器學習過程。類是通過相關資料發現的一些組,類內的文字和其它組相比更為相近。換一種說法就是,文字聚類的目標是找到這樣一些類的集合,類之間的相似度盡可能最小,而類內部的相似性盡可能最大。作為一種無監督的機器學習方法,聚類是不需要訓練過程的...
NLP筆記之文字聚類
文字聚類是聚類在文字上的應用。由淺入深,需要先介紹聚類的思想。聚類是將給定物件的集合劃分為不同子集的過程,目標是使每個子集內部的元素盡量相似,不同子集 簇 之間的元素盡量不相似。根據元素從屬集合的確定程度,聚類分為硬聚類和軟聚類。1.硬聚類 每個元素被確定地分入乙個類 2.軟聚類 每個元素與每個簇都...