思想:將資料集劃分為若干不相交子集(稱為簇)。但演算法並不會告訴你每個簇是什麼意思,需要自行解釋。
作用:
探索性分析方法,用來分析資料的內在特點,尋找資料的分布規律。
作為分類的預處理,對待分類的物件進行聚類,然後對聚類出的結果的每一簇上,進行分類。
有效性指標:
外部指標:由聚類結果與某個參考模型進行比較得出;jaccard係數、fm指數、rand指數、ari指數
內部指標:直接由考察聚類結果而得到。db指數、dunn指數
距離度量:
聚類需要借助距離的遠近,評價樣本的相似性,因此如何度量距離影響聚類結果。
常見的利用歐式距離、曼哈頓距離。
基本演算法:kmeans
機器學習 聚類 密度聚類演算法
一,介紹 密度聚類演算法有多種,我們這裡主要介紹一種著名的密度聚類演算法 dbscan。首先,我們通過下圖了解幾個概念 1 鄰域,與中心x距離不超過 距離,如上圖紅色虛線圈 2 核心物件,確定聚類的初始點,如上圖的x1 3 密度直達,在聚類核心物件鄰域內的點,如上圖x2由x1密度直達 4 密度可達,...
機器學習 聚類演算法
k means演算法 聚類概念 無監督問題 我們手裡沒有標籤了 難點 如何評估,如何調參 聚類 相似的東西分到一組 k means演算法 基本概念 要得到簇的個數,需要指定k值 距離的度量 常用歐幾里得距離和余弦相似度 先標準化 優化目標 質心 均值,即向量各維取平均即可 k means演算法 工作...
機器學習 聚類演算法
在無監督學習中,我們的訓練集可以寫成只有x 1 x x 1 x 2 x x 2 一直到x m x x m 我們沒有任何標籤 yyy。我們希望有一種演算法能夠自動的把這些資料分成有緊密關係的子集或是簇。演算法步驟綜述 k 均值是乙個迭代演算法,假設我們想要將資料聚類成n個組,其方法為 首先選擇k個隨機...