r型聚類典型指標 聚類分析 你必須知道的事

2021-10-13 04:44:48 字數 1511 閱讀 2565

聚類分析包括r型聚類(對變數指標聚類)和q型聚類(對個案觀測聚類)

資料:有 20 種 12 盎司啤酒成分和**的資料,變數包括啤酒名稱、熱量、鈉含量、酒精含量、**。資料來自《spss for windows 統計分析》data11-03。

一.如何對變數進行聚類(即選擇哪些主要的變數)——r型聚類

1、如何篩選聚類變數?現在我們有 4 個變數用來對啤酒分類,是否有必要將 4 個變數都納入作為分類變數呢?熱量、鈉含量、酒精含量這 3 個指標是要通過化驗員的辛苦努力來測定,而且還需要花費不少成本,如果都納入分析的話,豈不太麻煩太浪費?所以,有必要對 4 個變數進行降維處理,這裡採用 r 型聚類(變數聚類),對 4 個變數進行降維處理。輸出「相似性矩陣」有助於我們理解降維的過程。

2、4 個分類變數量綱各不相同,我們先確定用相似性來測度,度量標準選用 pearson 係數,聚類方法選最遠元素,此時,涉及到相關,4 個變數可不用標準化處理,將來的相似性矩陣裡的數字為相關係數。若果有某兩個變數的相關係數接近 1 或-1,說明兩個變數可互相替代。

3、只輸出「樹狀圖」就可以了,從 proximity matrix 表中可以看出熱量和酒精含量兩個變數相關係數 0.903,最大,二者選其一即可,沒有必要都作為聚類變數,導致成本增加。至於熱量和酒精含量選擇哪乙個作為典型指標來代替原來的兩個變數,可以根據專業知識或測定的難易程度決定。(與因子分析不同,是完全踢掉其中乙個變數以達到降維的目的。)這裡選用酒精含量,至此,確定出用於聚類的變數為:酒精含量,鈉含量,**。

二、20 中啤酒能可以分幾類?——「q 型聚類」(對個案聚類)

1、現在對 20 中啤酒進行聚類。開始不確定應該分為幾類,暫時用乙個3-5 類範圍來試探。q 型聚類要求量綱相同,所以我們需要對資料標準化,這次採用歐式距離平方進行測度。分析——分類——系統聚類——選擇個案聚類

2、通過樹狀圖和冰柱圖來理解類別。最終是分為 4 類還是 3 類,這是個複雜的過程,需要專業知識和最初的目的來識別。這裡試著確定分為 4 類。選擇「儲存」,則在資料區域內會自動生成聚類結果。

聚類樹狀圖如下:

三、用於聚類的變數對聚類過程、結果有貢獻嗎,有用麼?——採用「單因素方差分析」

1、聚類分析除了對類別的確定需討論外,還有乙個比較關鍵的問題就是分類變數到底對聚類有沒有作用?有沒有貢獻,如果有個別變數對分類沒有作用的話,應該剔除。

2、該過程一般用 單因素方差分析來判斷。注意,因子變數選擇聚為 4 類的結果,而將三個聚類變數作為因變數處理。方差分析結果顯示,三個聚類變數 sig 值為0.00均比較顯著,所以用於分類的 3 個變數對分類有作用,可以使用,作為聚類變數是比較合理的。

四、對聚類結果的解釋?——採用」均值比較描述統計「

1、聚類分析最後一步,也是最困難的就是對分出的各類進行定**釋,描述各類的特徵,即各類別特徵描述。這需要專業知識作為基礎並結合分析目的才能得出。

2、可以採用均值比較過程對各類的各個指標進行描述。其中,report 報表用於描述聚類結果。對各類指標的比較來初步定義類別,主要根據專業知識來判定。

分析——比較均值——平均值

參考:《spss for windows 統計分析》

r型聚類典型指標 常用的聚類演算法及聚類演算法評價指標

1.典型聚類演算法 1.1 基於劃分的方法 代表 kmeans演算法 指定k個聚類中心 計算資料點與初始聚類中心的距離 對於資料點,找到最近的ci 聚類中心 將分配到ci中 更新聚類中心點,是新類別數值的均值點 計算每一類的偏差 返回返回第二步 1.2 基於層次的方法 代表 cure演算法 每個樣本...

r型聚類分析怎麼做 聚類分析演算法

1.雜訊和異常值的處理 2.資料標準化 參與聚類的變數絕大多數都是區間型變數,不同區間型變數之間的數量單位不同,如果不加處理直接進行聚類,很容易造成聚類結果的失真。資料標準化不僅可以為聚類計算中的各個屬性賦予相同的權重,還可以有效化解不同屬性因度量單位不統一所帶來的潛在的數量等級的差異 標準差標準化...

判別分析分為r型和q型嗎 r型聚類分析

第3l卷第4期2007年8月 物探與化探geophysical geochemicalexplorall0n v01.31.no.4aug.2007 利用excel實現r型聚類分析春乃 芽125000 遼寧有色葫蘆島地質.實驗目的 用資料探勘聚類演算法 q型聚類 r型聚類 求分類微博資料。2.實驗環...