機器學習之問題描述 聚類Clustering

2021-07-27 21:22:24 字數 549 閱讀 3919

聚類是無監督學習。定義:

給定一組例項x,例項間的「距離」為d(

x,y)

=d(y

,x),

x,y∈

x.那麼聚類問題需要得到乙個劃分pd

(x) ,滿足在例項x和y屬於同一類的時候有pd

(x)=

pd(y

).劃分應該使得類內差距最小,類間差距最大。對於「類內差距最小,類間差距最大」只可意會不可言傳。

上述定義中需要說明的是例項之間的「距離」d(

x,y)

只是用來衡量例項之間的相似性,並不一定滿足距離的定義,比如可以不滿足三角不等式。

可以想一下最簡單的劃分

p 是什麼?

dada,所有的例項都屬於同乙個類: pd

(x)=

1,∀x

∈x每個例項自成一類: pd

(x)=

x,∀x

∈x可以看出上面的聚類問題的定義是非常寬泛的。其實,聚類問題本來就沒有一致的定義,基本上可以說每乙個聚類演算法都有自己要解決的聚類問題。

機器學習之聚類

1.概念 無監督學習 無監督學習是機器學習的一種方法,沒有給定事先標記過的訓練示例,自動對輸入的資料進行分類或分群。無監督學習的主要運用包含 聚類分析 關係規則 維度縮減。它是監督式學習和強化學習等策略之外的一種選擇。乙個常見的無監督學習是資料聚類。在人工神經網路中,生成對抗網路 自組織對映和適應性...

機器學習之聚類演算法

聚類就是將乙個物件的集合 樣本集合 分割成幾個不想交的子集 每個子集所代表的語義需要使用者自己進行解釋 每個類內的物件之間是相似的,但與其他類的物件是不相似的.分割的類的數目可以是指定的 例如k means 也可以是有演算法生成的 dbscan 聚類是無監督學習的乙個有用工具。1原型聚類 原型聚類是...

機器學習之DBSCAN聚類

coding utf 8 created on wed nov 28 18 50 57 2018 author muli import numpy as np from sklearn.datasets.samples generator import make blobs from sklearn...