12 聚類模型 機器學習基礎理論入門

2021-10-25 15:34:53 字數 3278 閱讀 9497

定義

聚類分析又稱群分析,目標時將樣本劃分為緊密關係的子集或簇

應用聚類分析在實際中應用非常廣泛,如:市場細分、社交圈分析、天體資料分析等

聚類要求

聚類分析的目標時將樣本劃分為緊密關係的子集或簇。一般要求同一類內的相似度盡量大,不同類間的差異度盡量大。

常用聚類演算法

(1) kmeans聚類

(2) 層次聚類

(3) 密度聚類

(4) 高斯混合聚類

(5) 譜聚類

kmeans聚類過程

kmeans演算法時無監督模型,其核心思想是:對於給定的樣本集,按照樣本點之間的距離大小,將樣本集劃分為k各簇,並讓簇內的點盡量緊湊,而讓簇間的點盡量分開。

k=2時,隨機選取兩個點作為中心點,計算每個樣本點到中心點的距離,按距離遠近樣本點分成2簇,計算新簇的樣本的均值作為新的中心點,然後重複上述過程。

kmeans聚類關鍵點

幾個關鍵點:聚類簇數k的選擇、k各聚類中心點的初始值選擇、距離度量方式、損失計算方式。

(1) 聚類簇數k的選擇

k值得選擇是乙個比較難處理得點,事先並不知道該聚類成幾類;傳統得kmeans演算法採用人工試探或超引數搜尋得形式來確定。

(2) k個聚類中心點得初始值選擇

k個聚類中心點得初始值選擇直接影響迭代次數;傳統得kmeans演算法是隨機選擇初始值得方式;改進版待續。

(3) 距離度量方式

一般採用歐式距離,即:

(4) 損失計算方式

聚類每更新一次,需要計算一次損失情況,聚類問題得損失函式是各個簇中樣本向量到對應簇均值向量的均方誤差。

很明顯,目標就是最小化這個均方誤差。

kmeans聚類改進版

1)k-means++

隨機選擇初始聚類中心存在較大偶然性,改進版k-means++演算法如下:

k-means演算法需要計算所有樣本點到各聚類中心的距離,若樣本量較大時此過程非常耗時;大資料時代,這樣的場景越來越多。因此,剔除另一種改進版—mini batch k-means:

在做k-means演算法前先對大樣本資料進行一次隨機取樣,取樣得到的樣本再用k-means進行聚類。一般進行多次mini batch後進行多次k-means聚類,最後選擇最優的聚類簇。可能會有一些資訊損失。

kmeans演算法優缺點

優點(1) 原理簡單,易實現,收斂速度較快,可解釋性較強

(2) 需要調節的引數較少(主要是聚類簇數k),且聚類效果較好。

缺點(1) 聚類簇數k值得選擇不好把握,一般只能通過暴力搜尋法來決定;

(2) 只適合簇型資料,對其他型別資料的聚類效果可能一般;

(3) 當資料存在比較嚴重的類別不平衡時,聚類效果不佳;

(4) 當資料量較大時,計算量較大,採用mini batch的方式雖然可以緩解,但可能會犧牲準確度。

層次聚類過程

層次聚類(hierarchial clustering)就是一層一層的進行聚類。

可以由上向下的類別分割,叫做**法;也可以由下向上對小的類別進行聚合,叫做凝聚法;一般用的比較多的是是由下向上的凝聚法。

凝聚法步驟:

(1) 將每個樣本點當作乙個類簇,原始類簇大小等於樣本點的個數;

(2) 計算各簇間的距離,然後合併距離最近的兩個簇;

(3) 重複步驟(2)直到達到某種條件或達到設定的聚類數目。

層次聚類的距離度量

層次聚類的關鍵是計算簇間的距離後合併相近的簇,所以距離的度量很關鍵;

層次聚類的距離度量由以下三種:

(1) 最小距離:由兩個簇的最近樣本決定簇的距離。

(2) 最大距離:由兩個簇的最遠樣本決定。

(3) 平均距離:由兩個簇的所有樣本共同決定。

採用最小或最大距離時,聚類結果可能受雜訊點的影響較大,但計算量較小;採用平均距離抗雜訊能力較強,但計算量增大,一般採用平均距離。

層次聚類的優缺點

優點(1) 能夠展現資料層次結構,易於理解;

(2) 可以基於層次事後再選擇類的個數。

缺點計算量比較大,不適合樣本量大的情形

dbscan聚類介紹

密度聚類演算法假設聚類結構能夠通過樣本分佈的緊密程度確定;其從樣本密度的角度考察樣本之間的可連線性,並且基於可連線樣本不斷擴充套件聚類簇以獲得最終的聚類結果。

dbscan是一種著名的密度聚類演算法,其基於一組「鄰域」(minpts)引數來刻畫樣本分佈的緊密程度;

思想:由密度可達關係匯出的最大密度相連的樣本集合,即為最終聚類的乙個簇。

基本概念:

dbscan聚類舉例

dbscan聚類關鍵點

簇的個數不用事先設定,可以按照核心物件的逐步減少生成最後的聚類簇。

注意點dbscan聚類的優缺點

優點(1) 可以對任意形狀的稠密資料集進行聚類(k-means聚類一般只適用於凸資料集);

(2) 可以在聚類的同時發現異常點,對資料集中的異常點不敏感;

(3) 聚類結果沒有偏倚(k-means聚類初始值對聚類結果有很大影響)。

缺點知識點回顧

學習要求

掌握幾種常見聚類模型的原理、聚類過程、核心概念、相互之間的異同點、各自的優缺點、以及各自的適用場景。

機器學習 聚類 12

聚類的概念 一種無監督的學習,事先不知道類別,自動將相似的物件歸到同乙個簇中。應用場景 文件分類器 客戶分類 保險欺詐檢測 乘車資料分析 其中p 1為曼哈頓距離 p 2為歐氏距離 使用vdm距離 其中 mu,a,i表示在第i個樣本簇中屬性u上取值為a的樣本數 mu,a表示屬性u上取值為a的樣本數 k...

機器學習筆記12 聚類

在 無監督學習 中,訓練樣本的標記資訊是未知的,目標是通過對無標記訓練樣本的學習來揭示資料的內在性質及規律。此類學習任務中研究最多的是聚類。此外,無監督學習還有密度估計 異常檢測等。常見的聚類包括原型聚類 密度聚類 層次聚類等。原型聚類 此類演算法假設聚類結果能通過一組原型刻畫。通常情形下,演算法先...

機器學習之基礎理論相關了解

一 基礎概念 學習起點 二 有監督學習 有監督學習的應用面仍然是最廣泛的,這是因為我們現實中遇到的很多問題都是希望對某個事物的某個屬性做出 而這些問題通過合理的抽象和變換,都可以轉化為有監督學習的問題。學習步驟如下 1 在學習複雜模型之前,先學習幾個最簡單的模型,典型的如樸素貝葉斯 樸素貝葉斯有很強...