在「無監督學習」中,訓練樣本的標記資訊是未知的,目標是通過對無標記訓練樣本的學習來揭示資料的內在性質及規律。此類學習任務中研究最多的是聚類。此外,無監督學習還有密度估計、異常檢測等。常見的聚類包括原型聚類、密度聚類、層次聚類等。
原型聚類
此類演算法假設聚類結果能通過一組原型刻畫。通常情形下,演算法先對原型進行初始化,然後對原型進行迭代更新求解。
(1)k均值演算法
給定樣本集d
=d = }}}...} }}
d=,「k均值」演算法針對聚類所得簇劃分c
=c = \,,...,\}
c=最小化平方誤差
e =∑
i=1k
∑x∈c
i∥x−
μi∥2
2e = \sum\limits_^k } } \right\|_2^2} }
e=i=1∑
kx∈
ci∑
∥x−
μi∥
22其中μi=
1∣ci
∣∑x∈
ci
x= \frac} \right|}}\sum\limits_} x
μi=∣c
i∣1
x∈c
i∑
x是簇c
ic_i
ci的均值向量。上式刻畫了簇內樣本圍繞簇均值向量的緊密程度,e
ee值越小則簇內樣本相似度越高。具體地,k均值演算法如下:
1.從d中隨機選擇k個樣本作為初始均值向量
}}}...} }}
2.對每個樣本,計算得到與之最相近的均值向量μ
j\mu _j
μj,並將其劃入j類中
3.對已經劃分好的k個類,利用類中的樣本重新計算均值向量
4.重複過程2、3直到均值向量不再發生改變
—(2)學習向量量化(lvq)
lvq假設資料樣本帶有類別標記,學習過程利用樣本的這些監督資訊來輔助聚類。其演算法過程如下:
輸入樣本集d
=d = }}}}}...}} }}
d=;原型向量個數q,各原型向量預設的類別標記
}}}...} }}
1.初始化一組原型向量
}}}...} }}
2.從樣本集中d
=d = }}}}}...}} }}
d=隨機選取乙個樣本, 找出與x
jx_j
xj最近的一組原型向量p
ip_i
pi,如果yj=
ti
y_j=t_i
yj=ti
,則p′=
pi+η
⋅(xj
−pi)
p' = + \eta \cdot ( - )
p′=pi
+η⋅(
xj−
pi)
;否則,p′=
pi−η
⋅(xj
−pi)
p' = - \eta \cdot ( - )
p′=pi
−η⋅(
xj−
pi)
。然後將原型向量p
jp_j
pj更新為p′p'
p′3.演算法的停止條件是達到最大迭代輪數,或原型向量的更新很小。
—(3)高斯混合聚類
高斯混合聚類採用概率模型來表達聚類效果。這個演算法已經在上一節中講了,這裡不再贅述。
密度聚類
此類演算法假設聚類結構能通過樣本分佈的緊密程度確定。最著名的是dbscan演算法。此演算法先找出樣本的核心物件集ω
\omega
ω,然後從ω
\omega
ω中隨機選取乙個核心物件作為種子,找出由它密度可達的所有樣本,這就構成了第乙個聚類簇。將核心物件集ω
\omega
ω刨去已經歸類的樣本,在剩下的集合中再隨機選取乙個核心物件作為種子生成下乙個聚類簇。上述過程不斷重複,直至ω
\omega
ω為空。
層次聚類
層次聚類試圖在不同層次對資料集進行劃分,從而形成樹形的聚類結構。agnes是乙個採用自底向上策略的層次聚類演算法。它先將資料集中的每個樣本看作乙個初始聚類簇,然後演算法執行的每一步中找出距離最近的兩個聚類簇進行合併,該過程不斷重複,直至達到預設的聚類簇個數。這裡的關鍵是如何計算聚類簇之間的距離:可以採用最小距離(由兩個簇的最近樣本決定)、最大距離(由兩個簇的最遠樣本決定)、平均距離(由兩個簇的所有樣本決定)
參考周志華《機器學習》
機器學習 聚類 12
聚類的概念 一種無監督的學習,事先不知道類別,自動將相似的物件歸到同乙個簇中。應用場景 文件分類器 客戶分類 保險欺詐檢測 乘車資料分析 其中p 1為曼哈頓距離 p 2為歐氏距離 使用vdm距離 其中 mu,a,i表示在第i個樣本簇中屬性u上取值為a的樣本數 mu,a表示屬性u上取值為a的樣本數 k...
機器學習筆記 kMeans聚類
優點 容易實現。缺點 可能收斂到區域性最小值,在大規模資料集上收斂較慢。適用資料型別 數值型資料 k 均值演算法 先隨機確定k個初始點作為質心,然後將資料集中的每個點分配到乙個簇中,具體來講為每個點找距其最近的質心,並將其分配給該質心所對應的簇。再每個簇更新質心為該簇所有點的平均值。import n...
機器學習筆記(九) 聚類
目錄 聚類 一詞最早應該出自 戰國策 中的 方以類聚,物以群分 這句話的意思是 同類的東西常聚在一起,志同道合的人相聚成群,反之就分開 將這句話中所發現的規律應用到我們的機器學習中對無標籤的資料進行處理,也即假設相似度高的輸入資料往往屬於同一類別,便是 聚類 的核心思想。形式化地說,假定樣本集 一般...