聚類方法概要

2021-10-07 18:08:50 字數 814 閱讀 8570

聚類演算法是無監督學習中的典型演算法。

通過訓練不帶標籤的原資料,根據樣本的相似度或距離將其歸類,總結每一類的基本特徵,從而了解實質。聚類本質是統計描述方法,建立建設,而非驗證假設。

用一句古語來說,就是「物以類聚,人以群分」。

聚類的核心概念是相似度或距離,因為相似度或距離將直接影響聚類的結果,所以其選擇會是聚類的根本問題,具體的選擇取決於應用場景的特性。

常用的相似度或距離:

歐氏距離與馬氏距離的優缺點

二、用途

常見的使用場景有:

按聚類結果分:

按演算法特性分:

四、聚類演算法的選擇

如果資料量為中小規模,例如在 100w 條之內,k-means 是不錯的選擇(也可以視情況用 mini batch kmeans),100w 以上需要考慮用 mini batch kmeans;

如果資料中有離群點,使用基於密度的 dbscan 可以有效應對;

如果資料集是高維的,使用基於圖論的譜聚類,其他的聚類演算法在應對高維資料集時很難獲得令人滿意的效果。

五、聚類演算法詳述

k-means 概要及其實現

參考:

[1] 李航. 《統計學習方法》.

[2] 宋天龍. 《python 資料分析與資料化運營》

聚類與常見聚類方法

2.層次聚類 hiecarchical clustering 3.密度聚類 density based clustering 4.參考 k均值演算法是屬於劃分的聚類方法,k均值演算法將樣本分為k類,是通過最小化簇內距離 平方誤差 來實現的。e i 1n x c i x ui 22e sum n su...

聚類方法分類

1.原型聚類 典型的做法是k means,首先設定k個類別,隨機的在總體樣本中選擇k個樣本作為聚類中心,然後遍歷所有樣本點,把所有樣本點分類到k個類中 以最短距離為標準 然後更新k個樣本的樣本中心,再重新劃分所有的樣本點。停止條件可以設定為樣本的變化幅度不大的情況,或者兩次的損失函式變化不大的情況。...

短文本聚類方法

短文本聚類方法 在拿到乙個大規模資料集時,我們不可能對這麼多的問題進行注意打上標記 label 因為這個是非常耗時的。而且,我們還知道文字問題是乙個典型的多標記問題,這個時候打上的標記很多的時候都不會特別的精確,也就是我們通常說的弱標記weak label.這個時候我們就需要乙個聚類的方法,這樣可以...