【無監督學習】概念
類別監督學習
給定 i=1,2....學習輸入特徵x與輸出y之間的函式關係
分類、回歸、排序
無監督學習
給定 i=1,2....尋找資料集的內部結構
聚類、概率密度估計、視覺化
為什麼需要無監督學習?
【聚類】
發現資料中的分類聚集的結構:根據資料集中樣本之間的相似度大小將資料集劃分成不同的組別、類別、簇別
劃分的原則:類內樣本之間的距離小、類間樣本之間的距離大
聚類的結果是:產生簇的集合
型別分為:
基於劃分的聚類(無巢狀)
將所有樣本劃分到不同的類中,每個樣本僅僅屬於乙個類別
層次聚類(巢狀)
在不同層次上對資料集進行劃分,簇之間存在巢狀
簇集合:
獨佔/非獨佔
非獨佔的類簇中,乙個樣本可以屬於不同的簇
模糊/非模糊
模糊聚類中,乙個樣本按照一定權重屬於不同類簇,權重和為1
部分/完備
部分聚類中,只有部分資料參與聚類
異質/同質
異質中簇的大小、形狀之間差異很大
類簇的型別:
基於中心的簇
簇內的點與其中心的點較為接近相似,與其它簇內的中心較遠,簇的中心通常用質心即所有點的平均表示
基於連續性的簇
相比於其它任何簇的點,每個點都至少和簇內某一點更近
基於密度的簇
簇為高密度區域組成,而簇之間為低密度區域
基於概念的簇
同乙個簇具備某一性質,由一定公式推導而出
聚類的應用場景:
聚類分析三要素:
如何定義樣本之間的遠近 ? 相似性、距離函式
如何評價聚出的類的質量? 採用評價函式分析
如何獲得聚類的簇? 演算法如何設計與執行,如何停止
【距離函式】
乙個距離函式需要滿足以下特點:
非負性:
不可分的同一性:
對稱性:
三角不等式:
歐式距離:
曼哈頓距離:
距離函式對旋轉、平移不敏感,但對資料的單位尺度敏感,因此資料的標準化處理十分重要
【資料處理與分析】
資料標準化
在很多模型中,假設各個特徵取值區間相同,通常做法是將輸入特徵轉變為均值為0,方差為1的形式
最大/最小縮放
將特徵取值縮放到某個區間,即將特徵資料限定在一定取值範圍,可以對非常小的標準偏差有很好的魯棒性
資料正規化
將每個樣本的模的長度變為單位長度1
余弦相似度:即兩個向量的夾角余弦,用於刻畫兩個向量之間的相似性,越接近1,相似度越高
聚類效能評價:
簇內相似度計算:
平均距離:
最大距離:
簇間相似度計算:
最小距離:
類中心的距離:
整合評價指標:
db指標: 簇內距離/簇間中心距離 db指標越小,那麼聚類效果越好
di指標: 簇間距離/簇的半徑 di指標越大,那麼聚類效果越好
無監督學習 聚類
聚類是針對給定的樣本,根據據他們特徵的相似度或者距離,將其歸併到若干個 類 或 簇 的資料分析問題。乙個類是樣本的乙個子集。直觀上,相似的樣本在相同的類,不相似的樣本分散在不同的類。目的是通過得到的 類 或 簇 來發現資料的特點或者對資料進行處理,在資料探勘 模式識別等領域有著廣泛的應用。屬於無監督...
無監督學習 K Means聚類
無監督學習 通過無標籤的資料,學習資料的分布或資料與資料之間的關係。1定義 根據資料的 相似性 將資料分為多類的過程。1.1.演算法模組 k means 近鄰傳播演算法 dbscan演算法,高斯混合模型 gmm 等。1.2.python庫 sklearn.cluster 1.3.k means聚類演...
無監督學習 K means聚類
先用圖來描述k means怎麼做的 對於如下資料 如果你想分成2類 k 2 演算法會隨機生成兩個聚類中心 然後會分別計算每個資料 綠點 與聚類中心的距離 一般是歐式距離 來決定屬於哪個類 距離哪個聚類中心近 這樣,就得到了資料的第一次分類,接下來演算法會計算已分類的資料的 中心 將它們作為新的聚類中...