集群分析法 Cluster Analysis

2021-04-15 07:42:20 字數 1568 閱讀 7277

一、何謂集群分析法

眾多的多變數分析方法中,集群分析法(cluster analysis)是比較簡單的一種,統計學家通常應用集群分析法來對資料做簡化的工作及分類,也就是把相似的個體(觀測物)歸於一群。然而相似的標準為何、多相似才能歸為一群,則是我們需要**的問題。

集群分析分析出來的結果若沒有資訊(information),則結果究竟適不適合,也是一大考驗,因此分析時的"目標"非常重要,在分析進行中各種因子的選擇皆須視試驗者的目標而做決定,不同的因子決策造成的結果也往往不同。

二、集群分析法的主要目的

 對資料作簡化的工作及分類

 將相似的個體歸為一群

 使同一群的差異最小

三、集群分析法之過程:

(一)蒐集資料(data collection)

在收集資料時,應先確立工作之目標,而後選擇有代表性的,採用最好的單位測量,並且要注意資料是否得經過轉換

(二)轉換成相似矩陣(transformation to similary matrix)

由於集群分析是把相似性大的物體歸為一群,所以對於相似性的**也就格外重要,計算出物體間兩兩之相似係數(similation coef.)後,存放於矩陣中即為相似矩陣(similary matrix)。

四、階層式集群分析(hierarchical clustering methods)

根據相似性統計量,將樣本或變數進行集群的主要方法為:

(一)系統集群法

系統集群法是目前國內外使用得最多的一種集群方法,這種方法是先將集群的樣本或變數各自看成一群,然後確定群與群之間的相似統計量,並選擇最接近的兩群或若干個群合併成乙個新群,計算新群與其它各群之間的相似性統計量,再選擇最接近的兩群或若干群合併成乙個新群,直到所有的樣本或變數都合併成一群為止。

常用的系統集群法是以距離為相似統計量時,確定新群與其它各群之間距離的方法,如最短距離法、最長距離法、中間距離法、重心法、群平均法、離差平方和法歐…等等。

(二)逐步集群法

系統集群法的優點是集群比較準確,缺點是集群的次數較多,每集群一次只能減少一群或若干個群,每一次都需要計算兩兩樣品或小群之間的距離或其它相似性統計量,做起來比較麻煩。

至於逐步集群法做起來會方便一些,這種方法是先確定若干個樣品為初始凝聚點,計算各樣本與凝聚點的距離或其它相似性統計量,進行初始集群後,再根據初始集群計算各群的重心作為新的凝聚點,進行第二次集群,給乙個初始的集群方案,再按照某種最優法則,逐步調整集群方案,直到得到最優的集群方案。

用逐步集群法解題的關鍵是凝聚點的選擇及集群結果的調整,常用的方法有成批調整法、逐個調整法及離差平方和法。

(三)逐步分解法

這種方法是先將所有的樣品或變數看成一群,然後再一次又一次地將某些群進行分解,直到各個群都不能分解為止。

(四)有序樣本的集群

這種方法適用於有順序的物件,集群後既保持了各個物件原有的順序,又按照某種最優法則分割為若干個互有差異的群別。

集群分析的功能在將變數或觀察值分類,也就是將最相似的變數或觀察值合併成乙個集群(cluster)。集群分析與判別分析最大的不同在於:判別分析是將事先已分類好的觀察值,選取有分類效果的樣本,求其判別函式,將觀察值進行適當分類;而集群分析則不需事先將觀察值分類,直接以觀察值的屬性進行集群分析。

杜邦分析法 漏斗分析法和矩陣關聯分析法

資料分析工作涉及到很多的分析方法,比如說杜邦分析法 漏斗分析法以及矩陣關聯分析法,這些方法都是能夠幫助我們更好地進行資料分析工作。在這篇文章中我們就給大家介紹一下關於杜邦分析法 漏斗分析法和矩陣關聯分析法的相關知識,希望能夠更好地幫助大家增長見識。1.杜邦分析法 資料分析中的杜邦分析法是由美國杜邦公...

基於LR分析法的簡單分析法

一 課程設計目的 通過設計 編制 除錯乙個簡單計算器程式,加深對語法及語義分析原理的理解,並實現詞法分析程式對單詞序列的詞法檢查和分析。二 課程設計內容及步驟 本次課程設計需要使用 lr 分析法完成簡單計算器的設計,其中算術表示式的文法如下 無符號整數 數字 標誌符 字母 表示式 項 項 因子 因子...

層次分析法

ahp分析方法,其基本步驟可歸納為 1 建立遞階層次結構 建立遞階層次結構是ahp法中關鍵一步,如圖所示。首先,把複雜問題中所包含的因素分解為不同層次。同一層次的因素作為準則對下一層次的某些因素起支配作用,同時,它又受上乙個層次因素的支配。這種從上到下的支配關係形成了乙個遞階層次結構,處於最上層的是...