K means演算法 無監督學習

2021-10-10 01:56:39 字數 1093 閱讀 1924

現實生活中常常會有這樣的問題:缺乏足夠的先驗知識,因此難以人工標註類別或進行人工類別標註的成本太高。很自然地,我們希望計算機能代我們完成這些工作,或至少提供一些幫助。根據類別未知(沒有被標記)的訓練樣本解決模式識別中的各種問題,稱之為無監督學習。

我們可以怎樣最有用地對其進行歸納和分組?我們可以怎樣以一種壓縮格式有效地表徵資料?這都是無監督學習的目標,之所以稱之為無監督,是因為這是從無標籤的資料開始學習的。 

我們先來看一下乙個k-means的聚類效果圖

隨機設定k個特徵空間內的點作為初始的聚類中心

對於其他每個點計算到k個中心的距離,未知的點選擇最近的乙個聚類中心點作為標記類別

接著對著標記的聚類中心之後,重新計算出每個聚類的新中心點(平均值)

如果計算得出的新中心點與原中心點一樣,那麼結束,否則重新進行第二步過程

如果分開來看上圖的話,效果如下:

輪廓係數計算公式如下:

對於每個點i 為已聚類資料中的樣本 ,b_i 為i 到其它族群的所有樣本的距離最小值,a_i 為i 到本身簇的距離平均值。最終計算出所有的樣本點的輪廓係數平均值。

分析過程(我們以乙個藍1點為例)

如果b_i>>a_i:趨近於1效果越好, b_i

無監督學習 K means演算法

是指在未加標籤的資料中,根據資料之間本身的屬性特徵和關聯性對資料進行區分,相似相近或關聯性強的資料放在一起,而不相似不相近 關聯性不強的資料不放在一起。應用場景 降維,聚類演算法,關聯演算法 有監督學習和無監督學習的區別 分類問題,要求實現必須明確知道各個類別的訊息,建立的前提是待分類項都有乙個類別...

無監督學習 K means演算法

聚類演算法是一種無監督學習演算法。k均值演算法是其中應用最為廣泛的一種,演算法接受乙個未標記的資料集,然後將資料聚類成不同的組。k均值是乙個迭代演算法,假設我們想要將資料聚類成k個組,其方法為 隨機選擇k個隨機的點 稱為聚類中心 對與資料集中的每個資料點,按照距離k個中心點的距離,將其與距離最近的中...

無監督學習 K Means聚類

無監督學習 通過無標籤的資料,學習資料的分布或資料與資料之間的關係。1定義 根據資料的 相似性 將資料分為多類的過程。1.1.演算法模組 k means 近鄰傳播演算法 dbscan演算法,高斯混合模型 gmm 等。1.2.python庫 sklearn.cluster 1.3.k means聚類演...