吳恩達ML課程筆記(Chapter13)

2021-10-01 21:59:28 字數 1437 閱讀 2058

k:聚類的數量

c(i):樣本點x(i)被分到的聚類的索引值

μk:第k個聚類中心的位置

1.聚類演算法:把無標記(non-label)的資料分成一簇一簇的演算法

2.k-means演算法:我的另一篇部落格

3.k-means演算法也可以分類那些資料比較集中的資料集,比如像這樣:

4.這裡需要注意一點,大寫k用來表示聚類/簇的數量,小寫k用來表示1~k區間裡的某乙個數

1.優化目標:

ci:第i個點被分類到的聚類的索引

到xi被

分類到的

聚類中心

點的平方

\sum_^m

∑i=1m​

xi到x

i被分類

到的聚類

中心點的

平方我們就是要找到這一套c和μ,使得上述j最小。k-means演算法的第一步就是在找這套c,第二步就是找這套μ

1.首先需要注意,應該使k2.隨機選取聚類中心的方法:從樣本點中選取聚類中心

3.聚類中心落在了區域性最優的兩個例子:

4.我們可以重複選取聚類中心+移動聚類中心這一過程很多次(一般是50~1000),然後從中挑出使代價函式j(它的詳細定義見13-3的第一點,代價函式也稱為畸變值)最小的乙個

5.一般選k=2~10之間時,可以保證我們找到較好的聚類;但是如果k比10大很多很多的話,那多次執行隨機初始化的結果可能和第一次執行得到的結果差不多

1.肘部演算法(elbow method):

比如下面的這個代價函式和聚類數量的關係曲線,k取3以後畸變值下降的速度就慢了很多,所以k取3就是比較合適的

2.但是其實在實際生活中,得到的可能都是像這樣的圖線:

這樣就沒辦法很清晰地判斷它的拐點

3.所以選擇k值的乙個比較可靠的方法是人為選擇,看自己選擇k-means演算法的目的是什麼,實際需要多少個類

吳恩達ML課程筆記(Chapter 16)

1.幾個說明 n.u the number of users n.m the number of movies r i,j 1 if user j has rated movie i y i,j rating given by user j to movie i 1.題目如下 我們的任務就是,對於使...

ML 學習筆記 吳恩達

吳恩達ml logistic介紹代價函式的時候,有點迷糊。見下圖 因為這它定義了乙個叫cost 的函式,我就突然把這個函式與之前線性回歸 linear regression 的cost 函式搞混了,然後引發了我的疑惑。首先我們在做線性回歸 是要先確定 函式h hypthesis 然後將整個資料集代入...

吳恩達深度學習課程筆記

一直以為機器學習的重點在於設計精巧 神秘的演算法來模擬人類解決問題。學了這門課程才明白如何根據實際問題優化 調整模型更為重要。事實上,機器學習所使用的核心演算法幾十年來都沒變過。什麼是機器學習呢?以二類分類監督學習為例,假設我們已經有了一堆訓練資料,每個訓練樣本可以看作n維空間裡的乙個點,那麼機器學...