1. 什麼是聚類
定義:將無力或抽象物件的集合分組成為由類似的物件組成的多個類的過程被稱為聚類。
由聚類所生成的簇是一組資料物件的集合,這些物件與同乙個簇中的物件彼此相似,與其他簇中的物件相異。
與分類的區別,分類是有指導學習——類數目已知
聚類是無指導學習——類數目未知
典型應用:
商務上,分析不同的客戶群,並用購買模式來刻畫不同的客戶群的特徵。
在生物學上,用於推導植物和動物的分類,對基因進行分類,獲得對種群中固有結構的認識。
在遊戲中,可以對玩家分類,對遊戲分類,對遊戲角色分類,獲得一些資訊。
活躍的研究主題:
資料探勘物件類的典型要求:
聚類方法的可伸縮性:高伸縮性(處理資料量)
處理不同型別屬性的能力:
發現任意形狀的聚類:
用於決定輸入引數的領域知識最小化:輸入引數對聚類分析的影響很大
處理雜訊資料的能力:
對於輸入記錄的順序不敏感:
高維性:
基於約束的聚類:
可解釋性和可用性:
2. 聚類分析中的資料型別
(1)資料矩陣
用p個變數來表現n個物件,nxp矩陣。
(2)相異度矩陣
儲存n個物件兩兩之間的近似性,nxn矩陣
資料矩陣被稱為二模矩陣,而相異度矩陣被稱為單模矩陣。
區間標度變數
(1)計算平均的絕對偏差
sf = (|x1f - mf| + |x2f - mf| + … + |xnf - mf|)/ n
x1f, …, xnf 是f的n個度量值,mf是f的平均值,即mf = (x1f + x2f + … + xnf) / n
(2)計算標準化的度量值
zif = (xif - mf)/sf 0
0 0(請您對文章做出評價)
聚類分析筆記
1.什麼是聚類 定義 將無力或抽象物件的集合分組成為由類似的物件組成的多個類的過程被稱為聚類。由聚類所生成的簇是一組資料物件的集合,這些物件與同乙個簇中的物件彼此相似,與其他簇中的物件相異。與分類的區別,分類是有指導學習 類數目已知 聚類是無指導學習 類數目未知 典型應用 商務上,分析不同的客戶群,...
K Means 聚類分析學習筆記
在之前分享的鏈家二手房資料分析的練習中用到了 k means 聚類分析方法,所以就順道一起複習一下 k means 的基礎知識好了。k means 聚類分析可將樣本分為若干個集群,它的核心思想就是使某集群的資料點與其對應的中心之間的距離最小。所以 k means 聚類分析通常會假設已知集群的中心或者...
聚類分析(一) 什麼是聚類分析
將一群物理物件或者抽象物件的劃分成相似的物件類的過程。其中類簇是資料物件的集合,在類簇中所有的物件都彼此相似,而類簇與類簇之間的物件是彼此相異。聚類除了可以用於資料分割 data segmentation 也可以用於離群點檢測 outlier detection 所謂的離群點指的是與 普通 點相對應...