聚類試圖將資料集中的樣本劃分為若干個通常是不相交的子集,每個子集 稱為乙個"簇" (cluster)。
通過這樣的劃分,每個簇可能對應於一些潛在的概念(類別) ,如"淺色瓜" 「深色瓜」,「有籽瓜」 「無籽瓜」,甚至"本地瓜""外地瓜"等。
這些概念對聚類演算法而言事先是未知的,聚類過程 僅能自動形成簇結構,簇所對應的概念語義需由使用者來把握和命名。
聚類效能度量大致有兩類:
不同的距離量度會對距離的結果產生影響,常見的距離量度如下所示:
選擇k個點作為初始質心
repeat
將每個點指派到最近的質心,形成k個簇
重新計算每個簇的質心
until 簇不發生變化或達到最大迭代次數
這裡的重新計算每個簇的質心,如何計算的是根據目標函式得來的,因此在開始時我們要考慮距離度量和目標函式。
考慮歐幾里得距離的資料,使用誤差平方和(sum of the squared error, sse)作為聚類的目標函式,兩次執行k均值產生的兩個不同的簇集,選擇sse最小的那個。
k表示k個聚類中心,ci表示第幾個中心,dist表示的是歐幾里得距離。
dbscan 是一種著名的密度聚類演算法,它基於一組"鄰域" (neigh- borhood) 引數 (e,minpts) 來刻畫樣本分佈的緊密程度。
dbscan 的原理是識別特徵空間的「擁擠」區域中的點,在這些區域中許多資料點靠近在 一起,這些區域被稱為特徵空間中的密集(dense)區域。
**dbscan 有兩個引數:min_samples 和 eps。**如果在距乙個給定資料點 eps 的距離內至少有 min_ samples 個資料點,那麼這個資料點就是核心樣本。dbscan 將彼此距離小於 eps 的核心樣本放到同乙個簇中。
演算法流程:
演算法思想
最後,一共有三種型別的點:核心點、與核心點的距離在 eps 之內的點(叫作邊界點, boundary point)和雜訊。
層次聚類可以分為凝聚(agglomerative)層次聚類和**(divsive)層次聚類。
linkage :
, optional (default=」ward」)
優點缺點優點缺點
優點
缺點
機器學習筆記之K means聚類
k means聚類是聚類分析中比較基礎的演算法,屬於典型的非監督學習演算法。其定義為對未知標記的資料集,按照資料內部存在的資料特徵將資料集劃分為多個不同的類別,使類別內的資料盡可能接近,類別間的資料相似度比較大。用於衡量距離的方法主要有曼哈頓距離 歐氏距離 切比雪夫距離,其中歐氏距離較為常用。演算法...
機器學習之聚類
1.概念 無監督學習 無監督學習是機器學習的一種方法,沒有給定事先標記過的訓練示例,自動對輸入的資料進行分類或分群。無監督學習的主要運用包含 聚類分析 關係規則 維度縮減。它是監督式學習和強化學習等策略之外的一種選擇。乙個常見的無監督學習是資料聚類。在人工神經網路中,生成對抗網路 自組織對映和適應性...
機器學習筆記 kMeans聚類
優點 容易實現。缺點 可能收斂到區域性最小值,在大規模資料集上收斂較慢。適用資料型別 數值型資料 k 均值演算法 先隨機確定k個初始點作為質心,然後將資料集中的每個點分配到乙個簇中,具體來講為每個點找距其最近的質心,並將其分配給該質心所對應的簇。再每個簇更新質心為該簇所有點的平均值。import n...