統計學習 無監督學習聚類

2021-10-01 20:40:59 字數 1741 閱讀 5713

【無監督學習】概念

類別監督學習

給定 i=1,2....學習輸入特徵x與輸出y之間的函式關係

分類、回歸、排序

無監督學習

給定 i=1,2....尋找資料集的內部結構

聚類、概率密度估計、視覺化

為什麼需要無監督學習?

【聚類】

發現資料中的分類聚集的結構:根據資料集中樣本之間的相似度大小將資料集劃分成不同的組別、類別、簇別

劃分的原則:類內樣本之間的距離小、類間樣本之間的距離大

聚類的結果是:產生簇的集合                 

型別分為:

基於劃分的聚類(無巢狀)

將所有樣本劃分到不同的類中,每個樣本僅僅屬於乙個類別

層次聚類(巢狀)

在不同層次上對資料集進行劃分,簇之間存在巢狀

簇集合:

獨佔/非獨佔

非獨佔的類簇中,乙個樣本可以屬於不同的簇

模糊/非模糊

模糊聚類中,乙個樣本按照一定權重屬於不同類簇,權重和為1

部分/完備

部分聚類中,只有部分資料參與聚類

異質/同質

異質中簇的大小、形狀之間差異很大

類簇的型別:

基於中心的簇

簇內的點與其中心的點較為接近相似,與其它簇內的中心較遠,簇的中心通常用質心即所有點的平均表示

基於連續性的簇

相比於其它任何簇的點,每個點都至少和簇內某一點更近

基於密度的簇

簇為高密度區域組成,而簇之間為低密度區域

基於概念的簇

同乙個簇具備某一性質,由一定公式推導而出

聚類的應用場景:

聚類分析三要素:

如何定義樣本之間的遠近 ?  相似性、距離函式

如何評價聚出的類的質量? 採用評價函式分析

如何獲得聚類的簇? 演算法如何設計與執行,如何停止

【距離函式】

乙個距離函式需要滿足以下特點:

非負性:

不可分的同一性:

對稱性:

三角不等式:

歐式距離:

曼哈頓距離:

距離函式對旋轉、平移不敏感,但對資料的單位尺度敏感,因此資料的標準化處理十分重要

【資料處理與分析】

資料標準化

在很多模型中,假設各個特徵取值區間相同,通常做法是將輸入特徵轉變為均值為0,方差為1的形式

最大/最小縮放

將特徵取值縮放到某個區間,即將特徵資料限定在一定取值範圍,可以對非常小的標準偏差有很好的魯棒性

資料正規化

將每個樣本的模的長度變為單位長度1

余弦相似度:即兩個向量的夾角余弦,用於刻畫兩個向量之間的相似性,越接近1,相似度越高

聚類效能評價:

簇內相似度計算:

平均距離:

最大距離:

簇間相似度計算:

最小距離:

類中心的距離:

整合評價指標:

db指標: 簇內距離/簇間中心距離            db指標越小,那麼聚類效果越好

di指標:  簇間距離/簇的半徑                    di指標越大,那麼聚類效果越好

無監督學習 聚類

聚類是針對給定的樣本,根據據他們特徵的相似度或者距離,將其歸併到若干個 類 或 簇 的資料分析問題。乙個類是樣本的乙個子集。直觀上,相似的樣本在相同的類,不相似的樣本分散在不同的類。目的是通過得到的 類 或 簇 來發現資料的特點或者對資料進行處理,在資料探勘 模式識別等領域有著廣泛的應用。屬於無監督...

無監督學習 K Means聚類

無監督學習 通過無標籤的資料,學習資料的分布或資料與資料之間的關係。1定義 根據資料的 相似性 將資料分為多類的過程。1.1.演算法模組 k means 近鄰傳播演算法 dbscan演算法,高斯混合模型 gmm 等。1.2.python庫 sklearn.cluster 1.3.k means聚類演...

無監督學習 K means聚類

先用圖來描述k means怎麼做的 對於如下資料 如果你想分成2類 k 2 演算法會隨機生成兩個聚類中心 然後會分別計算每個資料 綠點 與聚類中心的距離 一般是歐式距離 來決定屬於哪個類 距離哪個聚類中心近 這樣,就得到了資料的第一次分類,接下來演算法會計算已分類的資料的 中心 將它們作為新的聚類中...