無監督學習可以分為兩類:
一類是化繁為簡,實際上是聚類和降維;
另一類是無中生有,即生成演算法。
下述兩種演算法的區別在於,k-means聚類要事先自己設定要劃分為幾個cluster,而hac不需要。
①人工設定有k個cluster,並為他們設定k個隨機的examples。
②為所有的樣本計算出他們最可能屬於的cluster(計算距離)。
③對每個cluster求mean(均值)得到每個cluster的中心。
④重複以上步驟。
其思想與哈夫曼樹有些許類似:首先找出兩個最相似的examples,去均值後合併為乙個example。於是examples的總量減少了1,重複這個步驟,得到乙個tree,根據每一層的劃分可以得到每個examples之間大致的相似度。
對於建立好的樹,比如切一刀在紅線位置,則整個樹被劃分為兩個cluster;切一刀在藍線位置,則劃分為三個cluster…
實際上僅僅用cluster來表示乙個樣本的特徵很不全面,因為乙個樣本可能有多個cluster的特徵,粗暴地將其分到乙個cluster內,會導致實際上丟失了一些有用的資料。
例如下圖,乙個人是強化系的,但是也會具有其他系的特徵,粗暴地完全歸入強化系會導致有些有用的資料丟失。
所以我們可以使用分布式表徵。實際上也就是降維。
此處附上microstrong大佬的一篇文章,從很多角度講述了pca演算法。pca演算法講解
機器學習日記 監督學習 無監督學習
監督學習是指 利用一組已知類別的樣本調整 分類器的 引數,使其達到所要求效能的過程,也稱為 監督訓練或有教師學習。無監督學習 現實生活中常常會有這樣的問題 缺乏足夠的 先驗知識 因此難以人工標註類別或進行人工類別標註的成本太高。很自然地,我們希望計算機能代我們完成這些工作,或至少提供一些幫助。根據類...
機器學習筆記 監督學習,無監督學習,半監督學習
這個問題可以回答得很簡單 是否有監督 supervised 就看輸入資料是否有標籤 label 輸入資料有標籤,則為有監督學習,沒標籤則為無監督學習。什麼是學習 learning 學習 乙個成語就可概括 舉一反三。此處以高考為例,高考的題目在上考場前我們未必做過,但在高中三年我們做過很多很多題目,懂...
有監督學習和無監督學習 無監督學習
一.無監督學習包含的演算法 聚類 kmeans聚類演算法 降維 pca 之所以叫無監督學習 是因為模型是從無標籤的資料開始學習,沒有目標值。二.kmeans聚類 1.聚類演算法步驟 定義 將高維資料轉化為低維資料的過程,在此過程中可能會捨棄原有資料,創造新的變數 作用 降低原始資料的維數 複雜度 損...