機器學習公開課筆記第七週之K均值法

2022-03-17 11:03:13 字數 1460 閱讀 6480

一,無監督學習(unsupervised learning)

無監督學習就是給定一系列沒有標籤的訓練資料,找出訓練資料之間的關係,最典型的就是聚類演算法(clustering algorithm)

無監督學習的工程應用

二,k均值法(k means algorithm),

1,k均值法是常用聚類演算法之一,把訓練資料分為k個聚類

2,演算法過程

1),隨機尋找k個資料作為聚類中心

2),給每個資料分配乙個離它最近的聚類中心

3),計算分配給同乙個聚類中心的所有資料的均值,聚類中心更改至均值

4),如果所有聚類中心都等於均值,結束,否則跳至第2步

p.s 如果某個聚類中心沒有其他資料分配給它,移除該中心

3,市場細分的乙個例子

4,代價函式

k均值法的優化目標是使所有資料到各自的聚類中心的距離的和最小

k均值法的演算法過程其實就是求使代價函式最小的聚類中心的過程

隨機尋找k個資料作為聚類中心,有可能會找到代價函式的區域性最小值,

所以需要多次隨機初始化執行k均值法,計算代價函式最小值

5,如何選擇聚類中心數量k

肘部方法(elbow method),畫出k和代價函式j的二次圖,選用使斜率急劇變化(肘部)的k,但如第二幅圖所示,斜率變化不大,肘部方法就就沒用

t我們還應該根據聚類的目的來決定聚類的數量k,以製造t恤為例,我們是想製造更多的尺寸型別來使顧客更滿意,還是更少的尺寸型別使t恤賣的更便宜

機器學習公開課筆記第五週之機器學習系統設計

以設計垃圾郵件分類器為例,當我們設計機器學習演算法時,先在24小時內設計出乙個簡單的演算法,跑一遍訓練資料,再根據資料的反饋結果 高偏差,高方差,或對某一類資料誤判比例過高等等 調整我們的演算法,反覆迭代優化 一,提取特徵 從大量垃圾郵件訓練資料中找出出現頻率最高的10,000到50,000個單詞,...

機器學習公開課筆記第五週之優化機器學習演算法

一,提高機器學習演算法準確度的方法 當我們的機器學習演算法不能準確 我們測試資料時,我們可以嘗試通過以下方法提高我們機器學習的演算法準確度 1 獲得更多的訓練樣例 2 減少特徵數 3 增加特徵數 4 增加多項式特徵 5 增大或減小 lambda 二,評估機器學習模型 如果只是單獨的使用乙個訓練集,我...

機器學習公開課筆記 2 多元線性回歸

一元線性回歸只有乙個特徵 x 而多元線性回歸可以有多個特徵 x 1,x 2,ldots,x n 假設 hypothesis h theta x theta tx theta 0x 0 theta 1x 1 ldots theta nx n 引數 parameters theta 0,theta 1,...