聚類(cluster)是無監督學習的一種,與分類相區別的地方在於:
1. 分類的目的在於將資料進行明確的歸屬劃分,聚類 的目的只是使同一類物件的相似度盡可能大;目前聚類的方法很多,根據基本思想的不同,大致可以將聚類演算法分為五大類:層次聚類演算法、分割聚類演算法、基於約束的聚類演算法、機器學習中的聚類演算法和用於高維度的聚類演算法。2. 聚類 作為非監督學習,不需要訓練和學習過程;
k-means演算法
k-means可以說是聚類演算法中最簡單、也是應用最多的方法,關鍵點有兩個:
1)中心用各類別中所有資料的均值表示;
2)通過迭代演算法進行資料更新;
k-means演算法結果好壞依賴於對初始聚類中心的選擇、容易陷入區域性最優解、對k值的選擇沒有準則可依循、對異常資料較為敏感。
基於此,在k-means的基礎上誕生了許多變體演算法,比如bradley和fayyad等,主要改進點在於 降低對中心的依賴,調整迭代過程中重新計算中心方法 等。
層次聚類
層次聚類的基本步驟:
1、初始化過程,將每個樣本作為一類;計算類間距離d,即樣本與樣本之間的相似度
給定閾值t,當相似度小於t時,可以合併
2、尋找各個類之間最近的兩個類,如果距離小於t,執行合併;
3、計算新合併的這個類 與 原有類之間的相似度;
4、重複2和3直到 沒有可以合併的類,結束。
機器學習之 聚類學習筆記
聚類試圖將資料集中的樣本劃分為若干個通常是不相交的子集,每個子集 稱為乙個 簇 cluster 通過這樣的劃分,每個簇可能對應於一些潛在的概念 類別 如 淺色瓜 深色瓜 有籽瓜 無籽瓜 甚至 本地瓜 外地瓜 等。這些概念對聚類演算法而言事先是未知的,聚類過程 僅能自動形成簇結構,簇所對應的概念語義需...
機器學習讀書筆記
第一章 引言介紹一些常識引入什麼是機器學習,機器學習的一些術語資料,規律,泛化,假設空間歸納偏好。1,假設空間 假設空間 監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示。換句話說,學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映集合,這個集合就是假設空間 ...
機器學習筆記之K means聚類
k means聚類是聚類分析中比較基礎的演算法,屬於典型的非監督學習演算法。其定義為對未知標記的資料集,按照資料內部存在的資料特徵將資料集劃分為多個不同的類別,使類別內的資料盡可能接近,類別間的資料相似度比較大。用於衡量距離的方法主要有曼哈頓距離 歐氏距離 切比雪夫距離,其中歐氏距離較為常用。演算法...