一,無監督學習(unsupervised learning)
無監督學習就是給定一系列沒有標籤的訓練資料,找出訓練資料之間的關係,最典型的就是聚類演算法(clustering algorithm)
無監督學習的工程應用
二,k均值法(k means algorithm),
1,k均值法是常用聚類演算法之一,把訓練資料分為k個聚類
2,演算法過程
1),隨機尋找k個資料作為聚類中心
2),給每個資料分配乙個離它最近的聚類中心
3),計算分配給同乙個聚類中心的所有資料的均值,聚類中心更改至均值
4),如果所有聚類中心都等於均值,結束,否則跳至第2步
p.s 如果某個聚類中心沒有其他資料分配給它,移除該中心
3,市場細分的乙個例子
4,代價函式
k均值法的優化目標是使所有資料到各自的聚類中心的距離的和最小
k均值法的演算法過程其實就是求使代價函式最小的聚類中心的過程
隨機尋找k個資料作為聚類中心,有可能會找到代價函式的區域性最小值,
所以需要多次隨機初始化執行k均值法,計算代價函式最小值
5,如何選擇聚類中心數量k
肘部方法(elbow method),畫出k和代價函式j的二次圖,選用使斜率急劇變化(肘部)的k,但如第二幅圖所示,斜率變化不大,肘部方法就就沒用
t我們還應該根據聚類的目的來決定聚類的數量k,以製造t恤為例,我們是想製造更多的尺寸型別來使顧客更滿意,還是更少的尺寸型別使t恤賣的更便宜
機器學習公開課筆記第五週之機器學習系統設計
以設計垃圾郵件分類器為例,當我們設計機器學習演算法時,先在24小時內設計出乙個簡單的演算法,跑一遍訓練資料,再根據資料的反饋結果 高偏差,高方差,或對某一類資料誤判比例過高等等 調整我們的演算法,反覆迭代優化 一,提取特徵 從大量垃圾郵件訓練資料中找出出現頻率最高的10,000到50,000個單詞,...
機器學習公開課筆記第五週之優化機器學習演算法
一,提高機器學習演算法準確度的方法 當我們的機器學習演算法不能準確 我們測試資料時,我們可以嘗試通過以下方法提高我們機器學習的演算法準確度 1 獲得更多的訓練樣例 2 減少特徵數 3 增加特徵數 4 增加多項式特徵 5 增大或減小 lambda 二,評估機器學習模型 如果只是單獨的使用乙個訓練集,我...
機器學習公開課筆記 2 多元線性回歸
一元線性回歸只有乙個特徵 x 而多元線性回歸可以有多個特徵 x 1,x 2,ldots,x n 假設 hypothesis h theta x theta tx theta 0x 0 theta 1x 1 ldots theta nx n 引數 parameters theta 0,theta 1,...