李巨集毅機器學習(9) 無監督學習(PCA)

2021-10-03 09:32:24 字數 838 閱讀 9193

無監督學習可以分為兩類:

一類是化繁為簡,實際上是聚類和降維;

另一類是無中生有,即生成演算法。

下述兩種演算法的區別在於,k-means聚類要事先自己設定要劃分為幾個cluster,而hac不需要。

①人工設定有k個cluster,並為他們設定k個隨機的examples。

②為所有的樣本計算出他們最可能屬於的cluster(計算距離)。

③對每個cluster求mean(均值)得到每個cluster的中心。

④重複以上步驟。

其思想與哈夫曼樹有些許類似:首先找出兩個最相似的examples,去均值後合併為乙個example。於是examples的總量減少了1,重複這個步驟,得到乙個tree,根據每一層的劃分可以得到每個examples之間大致的相似度。

對於建立好的樹,比如切一刀在紅線位置,則整個樹被劃分為兩個cluster;切一刀在藍線位置,則劃分為三個cluster…

實際上僅僅用cluster來表示乙個樣本的特徵很不全面,因為乙個樣本可能有多個cluster的特徵,粗暴地將其分到乙個cluster內,會導致實際上丟失了一些有用的資料。

例如下圖,乙個人是強化系的,但是也會具有其他系的特徵,粗暴地完全歸入強化系會導致有些有用的資料丟失。

所以我們可以使用分布式表徵。實際上也就是降維。

此處附上microstrong大佬的一篇文章,從很多角度講述了pca演算法。pca演算法講解

機器學習日記 監督學習 無監督學習

監督學習是指 利用一組已知類別的樣本調整 分類器的 引數,使其達到所要求效能的過程,也稱為 監督訓練或有教師學習。無監督學習 現實生活中常常會有這樣的問題 缺乏足夠的 先驗知識 因此難以人工標註類別或進行人工類別標註的成本太高。很自然地,我們希望計算機能代我們完成這些工作,或至少提供一些幫助。根據類...

機器學習筆記 監督學習,無監督學習,半監督學習

這個問題可以回答得很簡單 是否有監督 supervised 就看輸入資料是否有標籤 label 輸入資料有標籤,則為有監督學習,沒標籤則為無監督學習。什麼是學習 learning 學習 乙個成語就可概括 舉一反三。此處以高考為例,高考的題目在上考場前我們未必做過,但在高中三年我們做過很多很多題目,懂...

有監督學習和無監督學習 無監督學習

一.無監督學習包含的演算法 聚類 kmeans聚類演算法 降維 pca 之所以叫無監督學習 是因為模型是從無標籤的資料開始學習,沒有目標值。二.kmeans聚類 1.聚類演算法步驟 定義 將高維資料轉化為低維資料的過程,在此過程中可能會捨棄原有資料,創造新的變數 作用 降低原始資料的維數 複雜度 損...