聚類是非監督學習的一種形式,它將乙個觀測集(即資料點)按相似度的大小進行分類,將最相似的資料點劃分在一類。
1、聚類分析含義:
聚類分析是將個體或物件分類,使得同一類中的物件之間的相似性比與其他類的物件的相似性更強。其目的在於使類間物件的同質性最大化和類與類間物件的異質性最大化。簡單說來,聚類分析就是把相似的研究物件歸為一類,以方便研究。
2、常用方法:
方法有以下三種:模糊聚類法、系統聚類法、k-均值聚類法。
模糊聚類:主要是將模糊數學的思想觀點用到聚類分析中產生的,此種聚類方法主要適用於定性變數的分類;
系統聚類法:是指將物理或者抽象物件的集合分成相似的物件類的過程
。步驟:首先,將n個樣品看成是n類(一類包含乙個樣品),然後將樣本距離最接近的兩類合併乙個新類,我們得到n-1類,再從中找到最接近的兩類加以合併變成n-2類,如此下去,可以得到我們想要的類別數。
k-均值聚類法,此
類方法主要適用於大資料組的聚類中。
3、相似度一般用樣本間的距離來衡量。
常見的是歐式距離:
兩個n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的歐氏距離:
此外,還有一種距離衡量:
ward(即離差平方和法)。它的思想是,同類離差平方和較小,類間偏差平方和較大。ward方法聚類時總是使得聚類導致的類內離差平方和增量最小。公式:
遞推公式:
4、聚類準則函式的選擇
一般有這幾種:
最短距離法、
最長距離法、
中間距離法、
重心法、
類平均距離法
具體參考這篇文章:
機器學習之聚類分析
聚類的核心是相似度或距離,聚類分析中有多種計算距離和相似度的定義 閔可夫斯基距離 d xi xj p 1 p p為大於1的數 python實現為 import numpy as np dt np.random.rand 10 reshape 2,5 minkow len 0p 10 可自行定義 fo...
機器學習 K means聚類分析
1.k means聚類演算法原理 1 先丟擲乙個情景問題 航空公司怎麼樣對客戶分群,區分 值客戶 無價值客戶等,對不同的客戶群體實施個性化的營銷策略,實現利潤最大化?對於該類情景題,可使用聚類分析方法。2 聚類分析相關概念 在沒有給定劃分類別的情況下,根據資料的相似度進行分組的一種方法,分組的原則是...
K Means 聚類分析學習筆記
在之前分享的鏈家二手房資料分析的練習中用到了 k means 聚類分析方法,所以就順道一起複習一下 k means 的基礎知識好了。k means 聚類分析可將樣本分為若干個集群,它的核心思想就是使某集群的資料點與其對應的中心之間的距離最小。所以 k means 聚類分析通常會假設已知集群的中心或者...