初學ML筆記N0 6 聚類方法

2021-07-14 23:04:54 字數 1953 閱讀 3588

聚類的目的就是為了將相似樣本的樣本分到同乙個類別裡。那麼,首先要考慮的便是如何度量這個相似。下面給出幾種常見的度量方式:

演算法首先隨機地選擇k個物件,每個物件初始地代表了乙個簇的平均值或中心。對剩餘的每個物件根據其與各個簇中心的距離,將其賦給最近的簇。然後重新計算出每個簇的中心,然後繼續將每個點賦給最近的簇。這個過程不斷重複,直到準則函式收斂。

其中,準則函式常常使用最小平方誤差函式mse,其定義如下:

這裡面e代表所有樣本的平方誤差總和,p是每個樣本點,mi是簇ci的中心點的值。

總結下,k-means如下:

- 輸入:n個樣本值,給定簇的數目k

- 輸出:平方誤差收斂後的k個簇

以下是乙個例項,其中,k=2:

對於k-means演算法有乙個更進一步的演算法,叫做 二分k-均值聚類演算法。

顧名思義,二分k-均值聚類演算法就是每次對資料集(子資料集)採取k=2的k-均值聚類劃分,子資料集的選取則有一定的準則。二分k-均值聚類演算法首先將所有點作為乙個簇,第一步是然後將該簇一分為二,之後的迭代是:在所有簇中根據sse選擇乙個簇繼續進行二分k-均值劃分,直到得到使用者指定的簇數目為止。

選擇哪乙個簇進行劃分取決於對」其劃分是否可以最大程度降低sse的值。這需要將每個簇都進行二分劃分,然後計算該簇二分後的簇sse之和並計算其與二分前簇sse之差(當然sse必須下降),最後選取差值最大的那個簇進行二分。

對於k-means演算法的缺點如下:

必須事先給出k值,也就是要事先知道需要生成簇的數量。

適用於座標系下的聚類,因為需要尋找中心值及距離。

不適合發現非凸形狀的簇或者大小差別較大的簇。

雜訊資料如孤立點,對結果影響比較大。

它首先把每個物件作為乙個簇,然後相似度高的簇被一步步合併。兩個簇間的距離由這兩個不同簇中距離最近的資料點對的相似度來確定。此過程反覆進行,直到合併到要求的簇的數目。

它首先將所有樣本置於乙個簇裡,然後逐漸細分為越來越小的簇(細分的原則可選擇歐氏距離或者其他),直到達到要求的簇的數目。

密度聚類演算法的思想是根據樣本點周圍的密度來確定其屬於哪個分類。它是一種連續查詢密度相近的點,並把它們劃分為一類的過程。

- 這種演算法的好處在於,它不受形狀的限制,只要密度是連續的,那麼我們就可以認為其是一類;其次,它對雜訊資料不敏感,因為雜訊資料一般是孤立的點,所以對其影響不大。

- 它的缺點是因為要計算每個點一定範圍內的密度,所以計算的複雜度比較大。

dbscan演算法(利用密度相連概念進行聚類):

有乙個比喻比較適合它,比如在每個城市市區裡,人口密度總是較大的,然而在城市與城市結合部裡, 密度總是很低,而這些低密度區域,正是對不同城市的劃分界限。可見,這種演算法還是很合理。

下面要思考的問題便是,如何定義密度的連續?首先定義幾個概念:

dbscan演算法的過程就是 若樣本p的ε-鄰域內包含多餘m個物件後,就被建立為以p為核心物件的新簇。然後其反覆尋找從這些核心點出發的密度可達的物件,此過程中,便把能密度可達的簇合併為同乙個簇。當沒有樣本點可以繼續新增時,整個聚類就結束了。

密度最大值演算法:

找出簇中心後,既可以按照k-means來分類,也可以直接用dbscan演算法,即密度可達的方式進行聚類。實踐中,後者更穩妥。

例項:

如上如,1跟10是簇中心,26、27、28為異常點。

首先,這裡的譜,就是指矩陣的譜,即為矩陣特徵值的集合。

譜聚類,是基於圖論的一種聚類方法,通過構造樣本的拉普拉斯矩陣,並對其特徵向量進行聚類,到達間接聚類樣本的目的。

初學ML筆記NO 5 關於熵

注 這篇筆記僅僅記錄關於熵的一些知識點備忘。對於最大熵模型的使用,有待做進一步了解。乙個隨機變數x,其取值為,則我們定義其資訊量為 將p x xi 寫為通式,則得到熵的數學定義 利用圖形化表示關係 熵性質 0 h x log x 最大熵的一般模型 最大熵模型有兩點要注意,我們承認已知的條件,並且還要...

ML學習筆記(一)

fashion mnist model tf.keras.sequential tf.keras.layers.flatten input shape 28 28 tf.keras.layers.dense 128,activation relu tf.keras.layers.dropout 0....

ML筆記 回歸分析概述

變數之間的非嚴格函式關係 變數x y之間存在某種密切的聯絡,但並非嚴格的函式關係 非確定性關係 回歸 回歸是處理兩個或兩個以上變數之間互相依賴的定量關係的一種統計方法和技術,變數之間的關係並非確定的函式關係,通過一定的概率分布來描述。線性和非線性 線性 linear 的嚴格定義是一種對映關係,其對映...