K Means 聚類分析學習筆記

2022-06-04 16:39:44 字數 1057 閱讀 6985

在之前分享的鏈家二手房資料分析的練習中用到了 k-means 聚類分析方法,所以就順道一起複習一下 k-means 的基礎知識好了。

k-means 聚類分析可將樣本分為若干個集群,它的核心思想就是使某集群的資料點與其對應的中心之間的距離最小。所以 k-means 聚類分析通常會假設已知集群的中心或者至少已知集群的數目。

當觀測物件包含缺失值時,那麼在 k-means 聚類分析的過程中會把該觀測物件除外。

比如說,對於乙個有 p 個變數 n 個觀察值的矩陣 x 而言,我們可以指定乙個 k * p 的矩陣為初始中心,或者直接在矩陣 x 中選取 k * p 個中心。

k-means 聚類分析包含兩個重要的過程。第乙個是選取初始中心,第二個是根據中心歸類分組。

>> 選取初始中心

若假設將樣本分為 k 個集群,那麼:

1. 將前 k 個觀測值設為集群中心

2. 遍歷其餘觀測值。若該觀測值與其最近的中心點的距離大於任意兩個相隔最近的中心的距離,則新的觀測值替代這兩個原中心中距離較近的中心成為新的集群中心。說的一頭霧水的吧……還是看看圖吧。

比如說,某個樣本具有 6 個初始中心。當迴圈比較至點 a 時,可以發現點 a 到中心 6 的距離大於中心 6 與中心 5 之間的距離,於是點 a 取代離它較近的中心 6 成為新的中心。

>> 歸類觀測值

利用歐式距離將每個觀測值歸入到離它最近的集群中。

比如說將觀測值 i 歸入到集群 k 中,那麼觀測值 i 和集群 k 的距離校正值為:

觀測值和其他集群(集群 j )的距離校正值為:

如果觀測值與集群 j 的距離校正值是相較於其他集群而言最小,且小於該觀測值目前所處的集群 k 的距離,那麼將觀測值 i 歸入集群 j,並且更新每個集群的中心為其群內所有觀測值的均值。

不斷重複以上步驟,直至迭代次數達到上線或者兩次更新中心後的集群內平方和之差小於閾值。

k means聚類分析

k means演算法是machine learning領域內比較常用的演算法之一。首先從n個資料物件任意選擇 k 個物件作為初始聚類中心 而對於所剩下其它物件,則根據它們與這些聚類中心的相似度 距離 分別將它們分配給與其最相似的 聚類中心所代表的 聚類 然 後再計算每個所獲新聚類的聚類中心 該聚類中...

K means聚類分析

主成分分析 pca pca n components 0.9 data pca.fit transform cross 降維x data 500 x.shape 對類別預設為4 km kmeans n clusters 4 km.fit x predict km.predict x 顯示聚類結果 p...

機器學習 K means聚類分析

1.k means聚類演算法原理 1 先丟擲乙個情景問題 航空公司怎麼樣對客戶分群,區分 值客戶 無價值客戶等,對不同的客戶群體實施個性化的營銷策略,實現利潤最大化?對於該類情景題,可使用聚類分析方法。2 聚類分析相關概念 在沒有給定劃分類別的情況下,根據資料的相似度進行分組的一種方法,分組的原則是...