聚類是無監督學習。定義:
給定一組例項x,例項間的「距離」為d(
x,y)
=d(y
,x),
x,y∈
x.那麼聚類問題需要得到乙個劃分pd
(x) ,滿足在例項x和y屬於同一類的時候有pd
(x)=
pd(y
).劃分應該使得類內差距最小,類間差距最大。對於「類內差距最小,類間差距最大」只可意會不可言傳。
上述定義中需要說明的是例項之間的「距離」d(
x,y)
只是用來衡量例項之間的相似性,並不一定滿足距離的定義,比如可以不滿足三角不等式。
可以想一下最簡單的劃分
p 是什麼?
dada,所有的例項都屬於同乙個類: pd
(x)=
1,∀x
∈x每個例項自成一類: pd
(x)=
x,∀x
∈x可以看出上面的聚類問題的定義是非常寬泛的。其實,聚類問題本來就沒有一致的定義,基本上可以說每乙個聚類演算法都有自己要解決的聚類問題。
機器學習之聚類
1.概念 無監督學習 無監督學習是機器學習的一種方法,沒有給定事先標記過的訓練示例,自動對輸入的資料進行分類或分群。無監督學習的主要運用包含 聚類分析 關係規則 維度縮減。它是監督式學習和強化學習等策略之外的一種選擇。乙個常見的無監督學習是資料聚類。在人工神經網路中,生成對抗網路 自組織對映和適應性...
機器學習之聚類演算法
聚類就是將乙個物件的集合 樣本集合 分割成幾個不想交的子集 每個子集所代表的語義需要使用者自己進行解釋 每個類內的物件之間是相似的,但與其他類的物件是不相似的.分割的類的數目可以是指定的 例如k means 也可以是有演算法生成的 dbscan 聚類是無監督學習的乙個有用工具。1原型聚類 原型聚類是...
機器學習之DBSCAN聚類
coding utf 8 created on wed nov 28 18 50 57 2018 author muli import numpy as np from sklearn.datasets.samples generator import make blobs from sklearn...