如何選擇K Means中K的值

2022-05-03 22:45:23 字數 520 閱讀 7640

k-means需要設定乙個簇心個數的引數,現實中,最常用於確定k數的方法,

其實還是人手工設定。例如,當我們決定將衣服做成幾個碼的時候,其實就是在以

人的衣服的長和寬為為特徵進行聚類。所以,弄清楚我們更在意的是什麼,能夠

引導選擇更合適的k值。

有種方法能自動決定k值,也就是所謂的elbow method(divfrp層次聚類etc.)。

它的idea是將不同k值及其相對應的cost function值畫出來,將轉折明顯的地方k值設定

為最合適的k。如圖:

但實際上,它並不是總是好用的。有時整個變換曲線並沒有明顯的轉折點。

關於如何實現elbow method未來我會專門寫一篇隨筆來介紹,並給出相應的python實現。

K means中K值的選擇

kmeans是最簡單的聚類演算法之一,但是運用十分廣泛。最近在工作中也經常遇到這個演算法。kmeans一般在資料分析前期使用,選取適當的k,將資料分類後,然後分類研究不同聚類下資料的特點。kmeans的計算方法如下 1.隨機選取k個中心點 2.遍歷所有資料,將每個資料劃分到最近的中心點中 3.計算每...

機器學習 K means如何選擇k值?

k means聚類是我們在無監督學習中常用的一種演算法,但有乙個很讓人頭疼的問題就是如何選擇k值。在實際業務中,如果根據業務場景明確知道要得到的類數,那就好辦了,但很多時候不知道k怎麼辦呢?下面有三種方法可以用來確定k值,其基本思想還是最小化類內距離,最大化類間距離,使同一簇內樣本盡可能相似,不同簇...

kmeans聚類選擇最優K值python實現

kmeans演算法中k值的確定是很重要的。下面利用python中sklearn模組進行資料聚類的k值選擇 資料集自製資料集,格式如下 手肘法 手肘法的核心指標是sse sum of the squared errors,誤差平方和 其中,ci是第i個簇,p是ci中的樣本點,mi是ci的質心 ci中所...