機器學習公開課筆記第七週之K均值法

一，無監督學習(unsupervised learning)

無監督學習就是給定一系列沒有標籤的訓練資料，找出訓練資料之間的關係，最典型的就是聚類演算法(clustering algorithm)

無監督學習的工程應用

二，k均值法(k means algorithm),

1，k均值法是常用聚類演算法之一，把訓練資料分為k個聚類

2，演算法過程

1)，隨機尋找k個資料作為聚類中心

2)，給每個資料分配乙個離它最近的聚類中心

3)，計算分配給同乙個聚類中心的所有資料的均值，聚類中心更改至均值

4)，如果所有聚類中心都等於均值，結束，否則跳至第2步

p.s 如果某個聚類中心沒有其他資料分配給它，移除該中心

3，市場細分的乙個例子

4，代價函式

k均值法的優化目標是使所有資料到各自的聚類中心的距離的和最小

k均值法的演算法過程其實就是求使代價函式最小的聚類中心的過程

隨機尋找k個資料作為聚類中心，有可能會找到代價函式的區域性最小值，

所以需要多次隨機初始化執行k均值法，計算代價函式最小值

5，如何選擇聚類中心數量k

肘部方法(elbow method)，畫出k和代價函式j的二次圖，選用使斜率急劇變化(肘部)的k，但如第二幅圖所示，斜率變化不大，肘部方法就就沒用

t我們還應該根據聚類的目的來決定聚類的數量k，以製造t恤為例，我們是想製造更多的尺寸型別來使顧客更滿意，還是更少的尺寸型別使t恤賣的更便宜

機器學習公開課筆記第五週之機器學習系統設計

以設計垃圾郵件分類器為例，當我們設計機器學習演算法時，先在24小時內設計出乙個簡單的演算法，跑一遍訓練資料，再根據資料的反饋結果高偏差，高方差，或對某一類資料誤判比例過高等等調整我們的演算法，反覆迭代優化一，提取特徵從大量垃圾郵件訓練資料中找出出現頻率最高的10,000到50,000個單詞，...

機器學習公開課筆記第五週之優化機器學習演算法

一，提高機器學習演算法準確度的方法當我們的機器學習演算法不能準確我們測試資料時，我們可以嘗試通過以下方法提高我們機器學習的演算法準確度 1 獲得更多的訓練樣例 2 減少特徵數 3 增加特徵數 4 增加多項式特徵 5 增大或減小 lambda 二，評估機器學習模型如果只是單獨的使用乙個訓練集，我...

機器學習公開課筆記 2 多元線性回歸

一元線性回歸只有乙個特徵 x 而多元線性回歸可以有多個特徵 x 1,x 2,ldots,x n 假設 hypothesis h theta x theta tx theta 0x 0 theta 1x 1 ldots theta nx n 引數 parameters theta 0,theta 1,...

機器學習公開課筆記第七週之K均值法

機器學習公開課筆記第五週之機器學習系統設計

機器學習公開課筆記第五週之優化機器學習演算法

機器學習公開課筆記 2 多元線性回歸

相關推薦