吳恩達《機器學習》第十三章 聚類

2022-10-10 13:51:10 字數 1507 閱讀 4727

聚類演算法——k-means演算法;

本節問題:

隨機初始化n個聚類中心;

距離是歐幾里得距離

衣服尺寸的劃分有點像是無監督演算法的市場化;

q:如果有乙個聚類中心,它沒有被分配到任何乙個點,怎麼辦?

a:一般情況移除這個聚類中心,但是聚類中心就會從k變為k-1;如果想保持k個聚類,則在初始化這個點一次;

本節目標

失真函式

兩步最小化,給聚類中心分配點時以及移動聚類中心時;『

本節問題

隨機化初始聚類中心,其實就是在樣本中隨機選k個點作為聚類中心;

k-means演算法可能落在區域性最優;

解決區域性最優問題就是多次隨機初始化,找到最好的解(畸變函式最小,即代價最小);

如果聚類數很少,比如3,4,5個,那麼多次隨機初始化會有明顯的較好的結果,如果聚類數很多,那麼下一次隨機初始化不一定比上次有多大的進步;

本節問題

常用方法還是觀察視覺化圖,手動選擇;因為資料的無標籤特性,也是無監督演算法的特性,所以自動選擇聚類數量是很困難的;

肘部法則:前期隨著k增加 j明顯下降,後期緩和下降,那麼拐點處一般作為k;但如果這個影象不怎麼明顯,而是緩和下降,那麼這個法則就難以適用;

另乙個方法就是看哪個k能更好的適用後續目的(分類後的目的)

吳恩達機器學習 第十三章個人筆記

訓練樣本沒有標籤,用聚類演算法劃分出多簇 用處 市場分割 社交網路分析 計算機集群組織 了解銀河系的構成 k均值演算法的核心步驟 假設我們要將下列樣本分為兩簇 初始化簇中心,遍歷每個樣本 將每個樣本分配給相應的簇 距離最小優先原則 對新簇的所有樣本求平均值,得到新的簇中心 重複 步驟,知道每個簇不變...

吳恩達機器學習 第十三章 支援向量機SVM

在監督學習中,很多監督學習演算法的效能都很相似,我們考慮的不是選哪個演算法,而是選擇演算法時所使用的資料量,這就體現了應用演算法時的技巧,比如你設計的用於學習演算法的特徵的選擇,正則化引數的選擇。svm和神經網路 邏輯回歸相比,在學習複雜的非線性方程時能夠提供一種更為清晰的方式。svm的總體優化目標...

吳恩達機器學習筆記6 聚類

聚類演算法是無監督學習演算法 k means演算法是乙個常用的聚類演算法 演算法過程 1.簇分配。隨機選擇k個點作為聚類中心,遍歷每個點,離a近的點算a類,離b近的點算b類,以此類推 2.移動聚類中心。計算每一類的中心 平均值的點 3.重新計算每個點所屬的類別。如果聚類中心不變,每個點的類別也不變,...