非監督學習unsupervised learning
聚類clustering
k-means演算法:
步驟1:簇分配:遍歷所有樣本,把與聚類中心接近的點劃為一類;
步驟2:移動聚類中心:把聚類中心移動到和它同類的資料集的均值處。
迭代以上兩步驟,直到聚類中心和點集不再變化。
兩個輸入:k(想聚類處的簇的個數);只有x沒有標籤y的訓練集。
x(i)是n維向量。
演算法表示:
如果存在乙個沒有點分配給它的聚類中心,則直接移除那個聚類中心。
應對沒有很好分開的簇,也可以用k-means
優化目標函式optimization objective
目的:(1)幫助我們除錯學習演算法,確保k均值演算法是在正確執行中。
(2)我們運用這個來幫助k均值找到更好的簇 ,並且避免區域性最優解 。
目標:找到最小化代價函式j的c和μ。這個代價函式往往也叫做 失真代價函式distortion cost function
按照演算法,首先以c為變數,minimizej,然後在移動聚類中心時,以μ為變數,minimizej
k-means演算法的核心:對代價函式j的優化過程。
隨機初始化random initialization
如何初始化k均值聚類方法,如何避開區域性最優來構建k均值聚類方法。
隨機初始化方法:
隨機選取k個訓練樣本,k選擇聚類個數k
1.因為是非監督學習,沒有標籤,所以並沒有乙個準確的答案。一般通過看視覺化的圖來手工選擇聚類的數目。
2.常見的選擇聚類數目的方法:肘部法則elbow method
作出k與j的曲線,在某一點之前畸變值快速下降,該點之後下降緩慢,則找到了該點為肘點。但很多圖肘點位置並不明確。
3. 看不同的聚類數量能為後續下游的目的提供多好的結果。即根據你要做的事情,要達到的目標來決定。比如t恤尺寸。
第八周學習
第八周學習週報 2018.10.22 10.28 一 本週學習情況 本週主要學習了 開源硬體 arduino基礎教程 1 歐姆定律 2 光敏電阻與三極體的初步認識 3 多種方法控制並點亮led燈 按鈕開關,光敏開關,紅外開關 訪問了csdn社群的計算機基礎板塊,學習大神的帖子。利用開源硬體對網課裡的...
第八周學習日誌
基於區塊鏈的身份管理認證研究 總結 主題 分析了通用的基於區塊鏈的身份管理認證模型。方法 大資料時代為信任服務引入了更多的實體 如何構建網路身份的信任體系十分重要 區塊鏈系統的弱中心化 公開透明 安全可靠為網路空間的信任服務提供了理論基礎 解決的問題 各個單位的資料孤島不能溝通 中心化管理系統的資料...
第八周學習總結
這周依然在主攻dp演算法,而這週相對於前兩周不同的是,這周主要在講揹包問題。揹包問題是dp演算法中乙個重點問題。她一共分為三種題型 01揹包問題,完全揹包問題和多重揹包問題。首先,01揹包問題是這三個問題中最簡單,也是最基礎的乙個。下面我會列舉乙個我認為非常有代表性,並且一看就懂的問題。也正是這個問...