相似度計算方法
相對熵(kl距離):d(p
∣∣q)
=∑xp
(x)l
ogp(
x)q(
x)=e
p(x)
logp
(x)q
(x
)d(p||q)=\sum\limits_xp(x)log\frac=e_log\frac
d(p∣∣q
)=x∑
p(x
)log
q(x)
p(x)
=ep
(x)
logq
(x)p
(x)
hellinger距離:dα(
p∣∣q
)=21
−α2(
1−∫p
(x)1
+α2q
(x)1
−α2d
x)
d_\alpha(p||q)=\frac(1-\int p(x)^}q(x)^}dx)
dα(p∣
∣q)=
1−α2
2(1
−∫p(
x)21
+αq
(x)2
1−α
dx)基本思想
滿足條件的簇成為合理劃分
對於給定的類別數目k,首先給出初始劃分,通過迭代改變樣本和簇的隸屬關係,使得每一次改進之後的劃分方案都比前一次好
k-means演算法
中止條件
初值敏感
公式化解釋
衡量指標
完整性
v-measure
輪廓係數
計算樣本i到其他某簇c
jc_j
cj的所有樣本的平均距離bij
b_bi
j,稱為樣本i與簇c
jc_j
cj的不相似度。定義為樣本i的簇間不相似度:bi=
mi
nb_i=min\,b_,...,b_\}
bi=mi
n 所有樣本s(i)的均值為整個聚類的輪廓係數
層次聚類
最大距離
平均距離
**的層次聚類:diana演算法
密度聚類
演算法流程
每個簇至少包含乙個核心物件
非核心物件可以是簇的一部分,構成了簇的邊緣
包含過少物件的簇被認為是雜訊
密度最大值演算法
高區域性密度點距離:δi=
minj:
ρj
>ρi
(dij
)\delta_i = \min\limits_(d_)
δi=j:
ρj>ρi
min(
dij
) 簇中心的識別
譜和譜聚類
譜聚類
演算法:未正則拉普拉斯矩陣
k ∗=
arg maxk
∣λk+
1−λk
∣k* =\argmax\limits_k|\lambda_-\lambda_k|
k∗=kar
gmax
∣λk
+1−
λk∣
k-means用於離散化
7 聚類演算法
聚類演算法是無監督學習,因為它不需要結果.其實聚類並不是特別準,因為它沒有標準答案,就表示有很多種可能,那麼實際機器判斷的準確度可能就並不高了.聚類主要有 k means聚類,層次聚類,混合高斯模型 有監督學習下的答案y,對應於聚類裡面的相關性 聚類的好壞分析 類內相似度高,類間相似度低,類內距離近...
基於ML的中文短文本聚類
整個過程分為以下幾個步驟 一 引入,python 依賴包,並載入語料 import random import jieba import pandas as pd import numpy as np from sklearn.feature extraction.text import tfidf...
初學ML筆記N0 6 聚類方法
聚類的目的就是為了將相似樣本的樣本分到同乙個類別裡。那麼,首先要考慮的便是如何度量這個相似。下面給出幾種常見的度量方式 演算法首先隨機地選擇k個物件,每個物件初始地代表了乙個簇的平均值或中心。對剩餘的每個物件根據其與各個簇中心的距離,將其賦給最近的簇。然後重新計算出每個簇的中心,然後繼續將每個點賦給...