clara
大型應用中的聚類方法)(kaufmann and rousseeuw in 1990)
:不考慮整個資料集, 而是選擇資料的一小部分作為樣本.
clara演算法的步驟:
它從資料集中抽取多個樣本集, 對每個樣本集使用pam, 並以最好的聚類作為輸出
clara 演算法的步驟:
(1) for i = 1 to v (選樣的次數) ,重複執行下列步驟( (2) ~ (4) ) :
(2) 隨機地從整個資料庫中抽取乙個n(例如:(40 + 2 k))個物件的樣本,呼叫pam方法從樣本中找出樣本的k個最優的中心點。
(3)將這k個中心點應用到整個資料庫上, 對於每乙個非代表物件oj ,判斷它與從樣本中選出的哪個代表物件距離最近.
(4) 計算上一步中得到的聚類的總代價. 若該值小於當前的最小值,用該值替換當前的最小值,保留在這次選樣中得到的k個代表物件作為到目前為止得到的最好的代表物件的集合.
(5) 返回到步驟(1) ,開始下乙個迴圈.
演算法結束後,輸出最好的聚類結果
clara演算法的優點與缺點:
優點: 可以處理的資料集比 pam大
缺點:1有效性依賴於樣本集的大小
2基於樣本的好的聚類並不一定是整個資料集的好的聚類, 樣本可能發生傾斜
例如, oi是整個資料集上最佳的k個中心點之一, 但它不包含在樣本中, clara將找不到最佳聚類
文字挖掘之文字聚類演算法之PAM(k 中心點)
pam演算法的原理 選用簇中位置最中心的物件,試圖對n個物件給出k個劃分 代表物件也被稱為是中心點,其他物件則被稱為非代表物件 最初隨機選擇k個物件作為中心點,該演算法反覆地用非代表物件來代替代表物件,試圖找出更好的中心點,以改進聚類的質量 在每次迭代中,所有可能的物件對被分析,每個對中的乙個物件是...
文字挖掘之文字聚類的介紹以及應用
文字聚類是乙個將文字集分組的全自動處理過程,是一種典型的無指導的機器學習過程。類是通過相關資料發現的一些組,類內的文字和其它組相比更為相近。換一種說法就是,文字聚類的目標是找到這樣一些類的集合,類之間的相似度盡可能最小,而類內部的相似性盡可能最大。作為一種無監督的機器學習方法,聚類是不需要訓練過程的...
NLP筆記之文字聚類
文字聚類是聚類在文字上的應用。由淺入深,需要先介紹聚類的思想。聚類是將給定物件的集合劃分為不同子集的過程,目標是使每個子集內部的元素盡量相似,不同子集 簇 之間的元素盡量不相似。根據元素從屬集合的確定程度,聚類分為硬聚類和軟聚類。1.硬聚類 每個元素被確定地分入乙個類 2.軟聚類 每個元素與每個簇都...