簡介:
聚類演算法是一種無監督學習,它將相似的物件歸類到同一簇中。聚類的方法可以應用所有的物件,簇內的物件越相似,聚類效果也就越好。
聚類和分類的最大不同之處在於,分類的目標是已知的,聚類是完全無監督學習,類別沒有像分類那樣被預先定義出來,所以叫做無監督學習。
kmeans演算法是實際中最常用的聚類演算法,沒有之一。kmeans演算法的原理簡單,實現起來不是很複雜,實際中使用的效果一般也不錯,所以深受廣大人民群眾的喜愛。已知觀測集x1,x2,...xn,其中觀測集都是d維度向量,kmeans需要將資料集劃分到k個類中,使得組內平方和最小。滿足下面要求:
步驟:
標準kmeans演算法的步驟一般如下:
1.先隨機挑選k個初始聚類中心;
2.計算資料集中每個點到每個聚類中心的距離,然後將這個點分配到離該點最近的聚類中心;
3.重新計算每個類中所有點的座標的平均值,並將得到的這個新的點作為新的聚類中心;
重複上面第2、3步,知道聚類中心點不再大範圍移動(精度自己定義)或者迭代的總次數達到最大。
主要優點:
1.原理簡單,容易理解
2.實現簡單
3.計算速度比較快
4.聚類效果還可以
主要缺點:
1.需要確定k值
2.對初始中心點的選擇比較敏感
3.對異常值敏感,因為異常值很大程度會影響聚類的效果
4.無法增量計算,這點在資料量大的時候比較嚴重
機器學習實戰之KMean
kmeans演算法步驟 1.確定聚類個數k 2.隨機選擇k個質心 3.對於所有樣本點 根據樣本點到質心的距離分類 4.分類完成後,如果所有樣本點的類別沒有變化,演算法結束 如果有變化,重新計算質心 當前類中樣本的平均值 回到步驟3 幾個問題 1.聚類個數k的確定 2.初始時質心的選取 3.容易出現區...
機器學習 機器學習實戰 Logistic回歸
我們在每個特徵上都乘以乙個回歸係數,然後把所有的結果值相加,將這個總和代入sigmoid函式中,進而得到乙個範圍在0 1之間的數值。任何大於0.5的資料被分入1類,小於0.5的被歸入0類。所以此種回歸也可以被看成是一種概率估計。收集資料 任意 準備資料 由於需要進行距離計算,因此要求資料型別為數值型...
機器學習 機器學習實戰 決策樹
缺點 可能會產生過度匹配問題 適用資料型別 數值型和標稱型 收集資料 可以使用任何方法 準備資料 樹構造演算法只適用於標稱型資料,因此數值型資料必須離散化 分析資料 可以使用任何方法,構造樹完成之後,我們應該檢查圖形是否符合預期 訓練演算法 構造樹的資料結構 測試演算法 使用經驗樹計算錯誤率。使用演...