機器學習演算法總結9 k means聚類演算法

2021-10-03 14:57:03 字數 830 閱讀 2749

無監督學習:訓練樣本的標記資訊是未知的,目標是通過對無標記訓練樣本的學習來揭示資料的內在性質及規律,為進一步的資料分析提供基礎。

聚類是典型無監督學習任務,它試圖將資料集中的樣本劃分為若干個通常是不相交的子集,每個子集稱為乙個

距離度量:通過距離來定義相似度度量,距離越大,相似度越小。最常用的距離度量是閔可夫斯基距離,其中,當p=2時,稱為歐氏距離;當p=1時,稱為曼哈頓距離。詳見我的部落格:機器學習演算法總結3:k近鄰法

除了上述距離度量,還有余弦距離,余弦值越接近1,說明兩個向量夾角越接近0度,表明兩個向量越相似。

余弦距離強調方向的差異,比如:聚類使用者的喜好分布;

閔可夫斯基距離強調數值的差異,比如:聚類使用者的活躍度。

k均值(k-means)演算法是聚類演算法中最經典的演算法,其中,k表示類別數,means表示均值,顧名思義k-means是通過均值對樣本集進行聚類的演算法

演算法流程如下:

演算法終止條件:通常設定乙個最大執行輪數或最小調整幅度閾值,若達到最大輪數或調整幅度小於閾值,則停止執行。

機器學習 K Means演算法

簡介 又叫k 均值演算法,是非監督學習中的聚類演算法。基本思想 k means演算法比較簡單。在k means演算法中,用cluster來表示簇 容易證明k means演算法收斂等同於所有質心不再發生變化。基本的k means演算法流程如下 選取k個初始質心 作為初始cluster,每個初始clus...

機器學習總結(六) K means總結

k means是非常常見的聚類演算法,思想簡單,易於實現,現在已經被廣泛應用到各種聚類任務當中。k means的基本思想是先初始化聚類中心,然後計算所有點到不同聚類中心的距離,重新計算聚類中心,反覆迭代,直到聚類中心沒有變化或者到達最大的迭代次數停止。因為思想簡單,所以易於使用,但是這個方法存在著很...

機器學習演算法總結之聚類 K means

在前面學習的ml演算法中,基本都是有監督學習型別,即存在樣本標籤。然而在機器學習的任務中,還存在另外一種訓練樣本的標籤是未知的,即 無監督學習 此類任務中研究最多 應用最廣泛的是 聚類 clustering 常見的無監督學習任務還有密度估計 異常檢測等。本文將首先介紹聚類基本概念,然後具體地介紹幾類...