這個問題可以回答得很簡單:是否有監督(supervised),就看輸入資料是否有標籤(label)。輸入資料有標籤,則為有監督學習,沒標籤則為無監督學習。
但根據知乎慣例,答案還是要繼續擴充套件的。
首先看什麼是學習(learning)?乙個成語就可概括:舉一反三。此處以高考為例,高考的題目在上考場前我們未必做過,但在高中三年我們做過很多很多題目,懂解題方法,因此考場上面對陌生問題也可以算出答案。機器學習的思路也類似:我們能不能利用一些訓練資料(已經做過的題),使機器能夠利用它們(解題方法)分析未知資料(高考的題目)?
在上述的分類過程中,如果所有訓練資料都有標籤,則為有監督學習(supervised learning)。如果資料沒有標籤,顯然就是無監督學習(unsupervised learning)了,也即聚類(clustering)。
目前分類演算法的效果還是不錯的,但相對來講,聚類演算法就有些慘不忍睹了。確實,無監督學習本身的特點使其難以得到如分類一樣近乎完美的結果。這也正如我們在高中做題,答案(標籤)是非常重要的,假設兩個完全相同的人進入高中,乙個正常學習,另一人做的所有題目都沒有答案,那麼想必第乙個人高考會發揮更好,第二個人會發瘋。
這時各位可能要問,既然分類如此之好,聚類如此之不靠譜,那為何我們還可以容忍聚類的存在?因為在實際應用中,標籤的獲取常常需要極大的人工工作量,有時甚至非常困難。例如在自然語言處理(nlp)中,penn chinese treebank在2年裡只完成了4000句話的標籤……
這時有人可能會想,難道有監督學習和無監督學習就是非黑即白的關係嗎?有沒有灰呢?good idea。灰是存在的。二者的中間帶就是半監督學習(semi-supervised learning)。對於半監督學習,其訓練資料的一部分是有標籤的,另一部分沒有標籤,而沒標籤資料的數量常常極大於有標籤資料數量(這也是符合現實情況的)。隱藏在半監督學習下的基本規律在於:資料的分布必然不是完全隨機的,通過一些有標籤資料的區域性特徵,以及更多沒標籤資料的整體分布,就可以得到可以接受甚至是非常好的分類結果。(此處大量忽略細節)
因此,learning家族的整體構造是這樣的:
有監督學習(分類,回歸)
↕
半監督學習(分類,回歸),transductive learning(分類,回歸)
↕
半監督聚類(有標籤資料的標籤不是確定的,類似於:肯定不是***,很可能是yyy)
↕
無監督學習(聚類)
監督學習,無監督學習和半監督學習
監督學習 supervised learning 無監督學習 unsupervised learning 半監督學習 semi supervised learning 2 概念 監督學習 用一部分已知分類 有標記的樣本來訓練機器後,讓它用學到的特徵,對沒有還分類 無標記的樣本進行分類 貼標籤。一句話...
有監督學習和無監督學習 無監督學習
一.無監督學習包含的演算法 聚類 kmeans聚類演算法 降維 pca 之所以叫無監督學習 是因為模型是從無標籤的資料開始學習,沒有目標值。二.kmeans聚類 1.聚類演算法步驟 定義 將高維資料轉化為低維資料的過程,在此過程中可能會捨棄原有資料,創造新的變數 作用 降低原始資料的維數 複雜度 損...
機器學習中的有監督學習,無監督學習,半監督學習
在機器學習 machine learning 領域,主要有三類不同的學習方法 監督學習 supervised learning 非監督學習 unsupervised learning 半監督學習 semi supervised learning 監督學習 通過已有的一部分輸入資料與輸出資料之間的對應...