機器學習課程筆記(第八周 1)K means

2021-09-29 07:58:12 字數 1362 閱讀 8311

非監督學習unsupervised learning

聚類clustering

k-means演算法

步驟1:簇分配:遍歷所有樣本,把與聚類中心接近的點劃為一類;

步驟2:移動聚類中心:把聚類中心移動到和它同類的資料集的均值處。

迭代以上兩步驟,直到聚類中心和點集不再變化。

兩個輸入:k(想聚類處的簇的個數);只有x沒有標籤y的訓練集。

x(i)是n維向量。

演算法表示:

如果存在乙個沒有點分配給它的聚類中心,則直接移除那個聚類中心。

應對沒有很好分開的簇,也可以用k-means

優化目標函式optimization objective

目的:(1)幫助我們除錯學習演算法,確保k均值演算法是在正確執行中。

(2)我們運用這個來幫助k均值找到更好的簇 ,並且避免區域性最優解 。

目標:找到最小化代價函式j的c和μ。這個代價函式往往也叫做 失真代價函式distortion cost function

按照演算法,首先以c為變數,minimizej,然後在移動聚類中心時,以μ為變數,minimizej

k-means演算法的核心:對代價函式j的優化過程。

隨機初始化random initialization

如何初始化k均值聚類方法,如何避開區域性最優來構建k均值聚類方法。

隨機初始化方法:

隨機選取k個訓練樣本,k選擇聚類個數k

1.因為是非監督學習,沒有標籤,所以並沒有乙個準確的答案。一般通過看視覺化的圖來手工選擇聚類的數目。

2.常見的選擇聚類數目的方法:肘部法則elbow method

作出k與j的曲線,在某一點之前畸變值快速下降,該點之後下降緩慢,則找到了該點為肘點。但很多圖肘點位置並不明確。

3. 看不同的聚類數量能為後續下游的目的提供多好的結果。即根據你要做的事情,要達到的目標來決定。比如t恤尺寸。

第八周學習

第八周學習週報 2018.10.22 10.28 一 本週學習情況 本週主要學習了 開源硬體 arduino基礎教程 1 歐姆定律 2 光敏電阻與三極體的初步認識 3 多種方法控制並點亮led燈 按鈕開關,光敏開關,紅外開關 訪問了csdn社群的計算機基礎板塊,學習大神的帖子。利用開源硬體對網課裡的...

第八周學習日誌

基於區塊鏈的身份管理認證研究 總結 主題 分析了通用的基於區塊鏈的身份管理認證模型。方法 大資料時代為信任服務引入了更多的實體 如何構建網路身份的信任體系十分重要 區塊鏈系統的弱中心化 公開透明 安全可靠為網路空間的信任服務提供了理論基礎 解決的問題 各個單位的資料孤島不能溝通 中心化管理系統的資料...

第八周學習總結

這周依然在主攻dp演算法,而這週相對於前兩周不同的是,這周主要在講揹包問題。揹包問題是dp演算法中乙個重點問題。她一共分為三種題型 01揹包問題,完全揹包問題和多重揹包問題。首先,01揹包問題是這三個問題中最簡單,也是最基礎的乙個。下面我會列舉乙個我認為非常有代表性,並且一看就懂的問題。也正是這個問...