本章講述的是第乙個無監督的機器學習演算法,在無監督的演算法中,樣本資料只有特徵向量,並沒有標註的y值。比如聚類演算法,它可以用在市場分類、社交網路分析、天體資料分析等等。在做聚類時,最簡單的演算法就是k-means,一般的流程是:
首先隨機選擇k個聚類中心點
遍歷所有的樣本,選擇乙個距離最近的中心點,並標記為對應的聚類
重新針對類簇計算中心點
重複2-3的過程
還有乙個演算法在這次的課程中沒有提到,就是kmeans++,它與上面的kmeans不同的是,選擇中心點是首先隨機選擇乙個,然後選擇乙個離當前最遠的作為下乙個中心點....
聚類演算法有時候並不是那麼完美分割的,大部分的時候資料都是連線在一起的:
k-means的優化目標:其實就是每個樣本點與其中心點計算一次距離,全部樣本的平均距離就是演算法的優化目標,min(path)越小,代表聚類演算法越好。不過細想一下,如果k越大,這個值就會越小。所以這個值也只能作為乙個參考而已...
k-means的演算法效果很大程度上取決於初始節點的選取。因此可以多嘗試隨機幾次看看效果:
在聚類演算法中還有乙個很重要的問題,就是k值如何選取:可以通過下面的肘點法選擇,比如下面左邊的圖,隨著k的值增加,損失值開始下降,那麼那個拐點就是我們選擇的最佳值;不過有時候,曲線會像右邊的圖一樣,這時肘點法就不起作用了,最終可以依賴於業務含義來選擇k的值。
吳恩達機器學習筆記 監督學習和無監督學習
1.監督學習 通過給定的資料集,進行 得到 正確的答案 並且資料集已經包括了答案。如 100平的房價100w,120平的房價120w,140平的房價140w,通過學習,我們可以 150平的房價150w左右。1.1回歸和分類 回歸指我們的 值應該是個連續輸出值 real valued output 如...
吳恩達機器學習筆記(1) 監督學習和無監督學習
在監督學習中,我們會有一組已經知道輸出結果應該是怎麼樣的資料集,也就是說,知道輸入和輸出之間會有一種特定的關係。然後,在監督學習中問題又被分成 回歸 和 分類 兩類問題。回歸 regression 的是一組連續的輸出結果,也就是說需要將輸入的資料與某個特定的連續函式所對應起來。分類 classifi...
吳恩達機器學習課時4 無監督學習
一 簡介 1.在監督學習中,資料集中的每個樣本都被標明為陽性樣本或者陰性樣本,即良性腫瘤或者噁心腫瘤,對於監督學習中的每個樣本,我們已經被清楚的告知了什麼是正確的答案,即他們是噁心腫瘤還是良性腫瘤,下圖左圖是監督學習。在無監督學習中,我們用的資料和之前不同,資料樣本沒有任何標籤,都具有相同的標籤或者...