1.無監督問題:我們手裡沒有標籤
2.聚類:相似的東西分到一組
3.難點:如何評估,如何調參
4.要得到簇的個數,需要指定k值
5.質心:均值,即向量各維取平均即可
6.距離的度量:常用歐幾里得距離和余弦相似度
7.優化目標:min$$ min \sum_^k \sum_ dist(c_i,x)^2$$
(a)讀入資料
(b)隨機初始化兩個點
(c)計算每個點到質心的距離,離那個質心距離近,就暫時歸為那類
(d)重新計算評估指標,更新質心,執行c動作
(e)重新更新質心
(f)重新計算質心的距離,進行分類,直到質心不在發生變化
簡單、快速、適合常規資料集
k值難確定
複雜度與樣本呈線性關係
很難發現任意形狀的簇,如下圖:
#資料讀入
DBSCAN聚類演算法的原理及sklearn的演示
概念 基於密度的帶有雜訊點的聚類方法。內部概念理解 1.核心物件 若某個點的密度達到演算法設定的閾值則稱為核心點。2.距離閾值 設定的半徑r。3.直接密度可達 若某點p在點q的r鄰域內,且q是核心密度點,則pq直接密度可達。4.密度可達 直接密度可達的相互傳播。5.密度相連 若從某核心點q出發,點p...
k means演算法及改進
k means是最常用的聚類演算法 k means演算法流程 1 選擇k個類為初始中心 2 在第i次迭代中,對任意樣本,計算其到各中心的距離,將樣本歸到距離最短的中心所在的類 3 利用均值等方法更新類的中心值 4 對於聚類中心,經過2 3 迭代後,值保持不變,迭代結束,否則繼續迭代。k means偽...
k means演算法及opencv實現
k means演算法是最為經典的基於劃分的聚類方法,是十大經典資料探勘演算法之一。k means演算法的基本思想是 以空間中k個點為中心進行聚類,對最靠近他們的物件歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結果。假設要把樣本集分為c個類別,演算法描述如下 1 適當選擇c個類的初...