選自:《unifying dependent clustering and disparate clustering for non-homogeneous data 》
傳統的k-means的演算法如下:
這個表示的是聚類的簇,i代表的的是不同的類,i'代表的是類外的點,i是類內的點。這個公式是代表的類內的點到類外的點的距離肯定小。
有公式可以看得出,整個公式是乙個類似的階躍函式,很明顯這個不符合現實生活的,通常情況下,我們通過高斯核函式來優化聚類函式,使其更加平滑,符合我們的的精準度的要求,但是這是乙個固定的不可調節的過程。因此,上面的文章中涉及了一種可調引數的聚類方法,具體如下:
這裡的d代表的是類的中心到類外的最短距離,y則是代表待分類點到類外的距離與最大距離的乘機,所有的點均為向量,我們的目標就是最小化所有的y,在這裡引入了自動化裡面常用的用於向量優化的k-s函式,
最後得到我們的聚類函式:
這裡面的p為人為設定引數,可以調節d為距離。
KMeans原理 調參及應用
一 前言 kmeans是資料探勘十大演算法之一,在資料探勘實踐中,我們也常常將kmeans運用於各種場景,因為它原理簡單 易於實現 適合多種資料探勘情景。二 原理 kmeans的原理較為簡單 以某種相似性度量為標準,確定樣本的結構,即樣本屬於哪乙個簇取決於該樣本與哪乙個簇的中心點最相似。演算法步驟如...
KMeans演算法的實現
咱走的不是流量,走的是心 include include include include include include using namespace std define length 5 資料維數 每個資料集,5維向量 define k 5 類別數 分為5類 define psize 50 資...
K means的改進 二分K means演算法
1 演算法的初始中心點選擇與演算法的執行效率密切相關,而隨機選取中心點有可能導致迭代次數很大或者限於某個區域性最優狀態 通常 k n,且 t n,所以演算法經常以區域性最優收斂。2 k均值的最大問題是要求使用者必須事先給出 k 的值,k 的選擇一般都基於一些經驗值和多次試驗結果,對於不同的資料集,k...