機器學習筆記之監督學習與無監督學習的一些初步總結

1、通俗解釋版

這個問題可以回答得很簡單：是否有監督（supervised），就看輸入資料是否有標籤（label）。輸入資料有標籤，則為有監督學習，沒標籤則為無監督學習。

首先看什麼是學習（learning）？乙個成語就可概括：舉一反三。此處以高考為例，高考的題目在上考場前我們未必做過，但在高中三年我們做過很多很多題目，懂解題方法，因此考場上面對陌生問題也可以算出答案。機器學習的思路也類似：我們能不能利用一些訓練資料（已經做過的題），使機器能夠利用它們（解題方法）分析未知資料（高考的題目）？

在上述的分類過程中，如果所有訓練資料都有標籤，則為有監督學習（supervised learning）。如果資料沒有標籤，顯然就是無監督學習（unsupervised learning）了，也即聚類（clustering）。

（但有監督學習並非全是分類，還有回歸（regression））

目前分類演算法的效果普遍還是不錯的（研究者們每天都在outperform其他人……），相對來講，聚類演算法就有些慘不忍睹了。（聚類：這不是我的錯嚶嚶嚶嚶└(t_t;)┘）確實，無監督學習本身的特點使其難以得到如分類一樣近乎完美的結果。這也正如我們在高中做題，答案（標籤）是非常重要的，假設兩個完全相同的人進入高中，乙個正常學習，另一人做的所有題目都沒有答案，那麼想必第乙個人高考會發揮更好，第二個人會發瘋。

這時各位可能要問，既然分類如此之好，聚類如此之不靠譜（分類<(￣︶￣)/，聚類└(t_t;)┘），那為何我們還可以容忍聚類的存在？因為在實際應用中，標籤的獲取常常需要極大的人工工作量，有時甚至非常困難。例如在自然語言處理（nlp）中，penn chinese treebank在2年裡只完成了4000句話的標籤……

這時有人可能會想，難道有監督學習和無監督學習就是非黑即白的關係嗎？有沒有灰呢？good idea。灰是存在的。二者的中間帶就是半監督學習（semi-supervised learning）。對於半監督學習，其訓練資料的一部分是有標籤的，另一部分沒有標籤，而沒標籤資料的數量常常極大於有標籤資料數量（這也是符合現實情況的）。隱藏在半監督學習下的基本規律在於：資料的分布必然不是完全隨機的，通過一些有標籤資料的區域性特徵，以及更多沒標籤資料的整體分布，就可以得到可以接受甚至是非常好的分類結果。（此處大量忽略細節(￣ε￣；)）

因此，learning家族的整體構造是這樣的：

有監督學習（分類，回歸）

半監督學習（分類，回歸），transductive learning（不懂怎麼翻譯，直推式學習？）（分類，回歸）

半監督聚類（有標籤資料的標籤不是確定的，類似於：肯定不是***，很可能是yyy）

無監督學習（聚類）

2、另一種解釋

有監督學習(supervised learning)：我們有乙個資料集，如果對於每乙個單一的資料根據它的特徵向量我們要去判斷它的標籤（演算法的輸出值），那麼就是有監督學習。通俗的說，有監督學習就是比無監督學習多了乙個可以表達這個資料特質的標籤。

我們再來看有監督學習，分為兩個大類：

(1) 回歸分析(regression analysis)：回歸分析，其資料集是給定乙個函式和它的一些座標點，然後通過回歸分析的演算法，來估計原函式的模型，求出乙個最符合這些已知資料集的函式解析式。然後它就可以用來預估其它未知輸出的資料了，你輸入乙個自變數它就會根據這個模型解析式輸出乙個因變數，這些自變數就是特徵向量，因變數就是標籤。而且標籤的值是建立在連續範圍的。

(2) 分類（classification）：其資料集，由特徵向量和它們的標籤組成，當你學習了這些資料之後，給你乙個只知道特徵向量不知道標籤的資料，讓你求它的標籤是哪乙個？結果是離散的。

無監督學習（unsupervised learning)：所有資料只有特徵向量沒有標籤，但是可以發現這些資料呈現出聚群的結構，本質是乙個相似的型別的會聚集在一起。把這些沒有標籤的資料分成乙個乙個組合，就是聚類（clustering）。比如google新聞，每天會蒐集大量的新聞，然後把它們全部聚類，就會自動分成幾十個不同的組，每個組內新聞都具有相似的內容結構。

無監督學習還有乙個典型的例子就是雞尾酒會問題（聲音的分離），在這個酒會上有兩種聲音，被兩個不同的麥克風在不同的地方接收到，而可以利用無監督學習來分離這兩種不同的聲音。注意到這裡是無監督學習的原因是，事先並不知道這些聲音中有哪些種類（這裡的種類就是標籤的意思）。

機器學習筆記之監督學習與無監督學習的一些初步總結

機器學習筆記監督學習，無監督學習，半監督學習

無監督學習與監督學習

監督學習與無監督學習

機器學習筆記之監督學習與無監督學習的一些初步總結

機器學習筆記 監督學習，無監督學習，半監督學習

無監督學習與監督學習

監督學習與無監督學習

相關推薦

機器學習筆記監督學習，無監督學習，半監督學習