1、 方法概述
聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種多元統計方法,所謂類,通俗地說,就是指相似元素的集合。
2、 根據分類物件的不同聚類分析可以分為
樣品聚類(又稱q型聚類):就是對事件進行聚類,或是說對觀測量進行聚類,是根據被觀測的物件的各種特徵即反映被觀測物件的特徵的各變數值進行分類。
變數聚類(又稱r型聚類):反映事物特點的變數有很多,我們往往根據所研究的問題選擇部分變數對事物的某一方面進行研究。
3、 距離和相似係數
為了將樣品(或指標)進行分類,就需要研究樣品之間關係。目前用得最多的方法有兩個:一種方法是用相似係數,性質越接近的樣品,它們的相似係數的絕對值越接近1,而彼此無關的樣品,它們的相似係數的絕對值越接近於零。比較相似的樣品歸為一類,不怎麼相似的樣品歸為不同的類。另一種方法是將乙個樣品看作p維空間的乙個點,並在空間定義距離,距離越近的點歸為一類,距離較遠的點歸為不同的類。但相似係數和距離有各種各樣的定義。
k均值聚類法又稱為快速聚類法,可以用於大量資料進行聚類分析的情形。他是一種非分層的聚類方法。這種方法占用記憶體少、計算量、處理速度快,特別適合大樣本的聚類分析。它的基本操作步驟如下:
1、指定聚類數目k,應由使用者指定需要聚成多少類,最終也只能輸出關於它的唯一解。這點不同於層次聚類。在實際分析中,往往需要研究者根據問題,反覆嘗試把資料分成不同的類別數,並進行比較,從而找出最優方案。
2、確定k個初始類中心。兩種方式:一種是使用者指定,二是根據資料本身結構的中心初步確定.每個類別的原始中心點。
3、根據距離最近原則進行分類。逐一-計算每一紀錄到各個中心點的距離,把各個記錄按照距離最近的原則歸入各個類別,並計算新形成類別的中心點(用平均數表示,這也就是k均值中均值的含義)。
4、按照新的中心位置,重新計算每一紀錄距離新的類別中心點的距離,並重新進行歸類。
5、重複步驟4,直到達到一定的收斂標準,或者達到分析者事先指定的迭代步數為止。
6、這種方法也常稱為逐步聚類分析,即先把被聚類物件進行初始分類,然後逐步調整,得到最優方案。
系統聚類法常稱為層次聚類法、分層聚類法,也是聚類分析中使用廣泛的一種方法。它有兩種型別,一是對研究物件本身進行分類,稱為q型聚類;另一是對研究物件的觀察指標進行分類,稱為r型聚類。同時根據聚類過程不同,又分為分解法和凝聚法。
分解法:開始把所有個體(觀測量或變數)都視為同屬一大類,然後根據距離和相似性逐層分解,直到參與聚類的每個個體自成一類為止。
凝聚法:開始把參與聚類的每個個體(觀測量或變數)視為一類,根據兩類之間的距離或相似性逐步合併,直到合併為乙個大類為止。
spss中的系統聚類法採用的凝聚法,它的演算法步驟具體如下:
1、首先將資料各自作為一類(這時有n類),按照所定義的距離計算各資料點之間的距離,形成乙個距離陣;
2、將距離最近的兩條資料並為乙個類別,從而成為n-1個類別,計算新產生的類別與其他各個類別之間的距離或相似度,形成新的距離陣;
3、按照和第二步相同的原則,再將距離最接近的兩個類別合併,這時如果類的個數仍然大於1,則繼續重複這一步驟,直到所有的資料都被合併成乙個類別為止。
系統聚類的優點:可以對變數或樣品進行聚類,變數可以為連續或分類變數。但是由於它要反覆計算距離,當樣本量太大或變數較多時,採用系統聚類運算速度明顯較慢。
在系統聚類中,當每個類別有多於乙個的資料點構成時,就會涉及如何定義兩個類間的距離問題。根據距離公式不同,可能會得到不同的結果,這也就進一步構成了不同的系統聚類方法。常用的方法有如下幾種:
between-groups linkage(組間平均距離法):又稱為類平均法,是用兩個類別間各個資料點兩兩之間的距離的平均來表示兩個類別之間的距離,這是spss預設的方法。(大量實踐表明,該方法是一種非常優秀和穩健的方法,在多數情況下表現最為優異。)
nearestneighbor(最短距離法):用兩個類別中各資料點之間最短的那個距離來表示兩個類別之間的距離。
furthestneighbor(最遠距離法):用兩個類別中各資料點之間最遠的那個距離來表示兩個類別之間的距離.
centroid clustering(重心法):用兩個類別的重心之間的距離來表示兩個類別之間的距離。
ward』s method(離差平方和法):是要使得各類別中的離差平方和較小,而不同類別之間的離差平方和較大。使用該方法,將傾向於使得各個類別間的樣本盡可能相近。
其用於解決海量資料,複雜類別結構時的聚類分析問題
與k-均值聚類和系統聚類法相比,兩步聚類有著鮮明的特點。首先,用於聚類的變數可以是連續變數也可以是離散變數;其次,兩步聚類法占用記憶體資源少,對於大資料量,運算速度快;最後,它可以根據一定的統計標準來「自動地」建議甚至於確定最佳的類別數,結果的正確性更有保障。
數學建模之SPSS應用 聚類分析
一 什麼是聚類分析從機器學習的角度看,聚類是一種無監督的機器學習方法,即事先對資料集的分布沒有任何的了解,它是將物理或抽象物件的集合組成為由類似的物件組成的多個類的過程。二 常見演算法 1 k means演算法 2 一趟聚類演算法 3 層次聚類演算法 4 兩步聚類演算法 1 聚類分析 k means...
SPSS程式設計在Ridit分析中的應用
spss程式設計在ridit分析中的應用 多樣本有序分類資料 或等級資料 我們一般採用非引數檢驗 h檢驗 kruskal wallis法 但其結論只得出三組或多組間總的有差別,若要知道兩兩間是否有差別,則沒有ridit分析只要一次就能得出兩兩比較結果那麼方便。ridit分析是一種關於等級資料進行對比...
SPSS聚類分析 乙個案例演示聚類分析全過程
摘要 案例資料來源 有20種12盎司啤酒成分和 的資料,變數包括啤酒名稱 熱量 鈉含量 酒精含量 資料來自 spss for windows 統計分析 案例資料來源 一 問題一 選擇那些變數進行聚類?採用 r型聚類 1 現在我們有4個變數用來對啤酒分類,是否有必要將4個變數都納入作為分類變數呢?熱量...