小象ML 7 聚類

2021-09-27 11:53:14 字數 1658 閱讀 9290

相似度計算方法

相對熵(kl距離):d(p

∣∣q)

=∑xp

(x)l

ogp(

x)q(

x)=e

p(x)

logp

(x)q

(x

)d(p||q)=\sum\limits_xp(x)log\frac=e_log\frac

d(p∣∣q

)=x∑

​p(x

)log

q(x)

p(x)

​=ep

(x)​

logq

(x)p

(x)​

hellinger距離:dα(

p∣∣q

)=21

−α2(

1−∫p

(x)1

+α2q

(x)1

−α2d

x)

d_\alpha(p||q)=\frac(1-\int p(x)^}q(x)^}dx)

dα​(p∣

∣q)=

1−α2

2​(1

−∫p(

x)21

+α​q

(x)2

1−α​

dx)基本思想

滿足條件的簇成為合理劃分

對於給定的類別數目k,首先給出初始劃分,通過迭代改變樣本和簇的隸屬關係,使得每一次改進之後的劃分方案都比前一次好

k-means演算法

中止條件

初值敏感

公式化解釋

衡量指標

完整性

v-measure

輪廓係數

計算樣本i到其他某簇c

jc_j

cj​的所有樣本的平均距離bij

b_bi

j​,稱為樣本i與簇c

jc_j

cj​的不相似度。定義為樣本i的簇間不相似度:bi=

mi

nb_i=min\,b_,...,b_\}

bi​=mi

n 所有樣本s(i)的均值為整個聚類的輪廓係數

層次聚類

最大距離

平均距離

**的層次聚類:diana演算法

密度聚類

演算法流程

每個簇至少包含乙個核心物件

非核心物件可以是簇的一部分,構成了簇的邊緣

包含過少物件的簇被認為是雜訊

密度最大值演算法

高區域性密度點距離:δi=

min⁡j:

ρj

>ρi

(dij

)\delta_i = \min\limits_(d_)

δi​=j:

ρj​>ρi

​min​(

dij​

) 簇中心的識別

譜和譜聚類

譜聚類

演算法:未正則拉普拉斯矩陣

k ∗=

arg max⁡k

∣λk+

1−λk

∣k* =\argmax\limits_k|\lambda_-\lambda_k|

k∗=kar

gmax

​∣λk

+1​−

λk​∣

k-means用於離散化

7 聚類演算法

聚類演算法是無監督學習,因為它不需要結果.其實聚類並不是特別準,因為它沒有標準答案,就表示有很多種可能,那麼實際機器判斷的準確度可能就並不高了.聚類主要有 k means聚類,層次聚類,混合高斯模型 有監督學習下的答案y,對應於聚類裡面的相關性 聚類的好壞分析 類內相似度高,類間相似度低,類內距離近...

基於ML的中文短文本聚類

整個過程分為以下幾個步驟 一 引入,python 依賴包,並載入語料 import random import jieba import pandas as pd import numpy as np from sklearn.feature extraction.text import tfidf...

初學ML筆記N0 6 聚類方法

聚類的目的就是為了將相似樣本的樣本分到同乙個類別裡。那麼,首先要考慮的便是如何度量這個相似。下面給出幾種常見的度量方式 演算法首先隨機地選擇k個物件,每個物件初始地代表了乙個簇的平均值或中心。對剩餘的每個物件根據其與各個簇中心的距離,將其賦給最近的簇。然後重新計算出每個簇的中心,然後繼續將每個點賦給...