機器學習筆記之監督學習與無監督學習的一些初步總結

2021-09-22 09:20:37 字數 2112 閱讀 7392

1、通俗解釋版

這個問題可以回答得很簡單:是否有監督(supervised),就看輸入資料是否有標籤(label)。輸入資料有標籤,則為有監督學習,沒標籤則為無監督學習。 

首先看什麼是學習(learning)?乙個成語就可概括:舉一反三。此處以高考為例,高考的題目在上考場前我們未必做過,但在高中三年我們做過很多很多題目,懂解題方法,因此考場上面對陌生問題也可以算出答案。機器學習的思路也類似:我們能不能利用一些訓練資料(已經做過的題),使機器能夠利用它們(解題方法)分析未知資料(高考的題目)?

在上述的分類過程中,如果所有訓練資料都有標籤,則為有監督學習(supervised learning)。如果資料沒有標籤,顯然就是無監督學習(unsupervised learning)了,也即聚類(clustering)。

但有監督學習並非全是分類,還有回歸(regression))

目前分類演算法的效果普遍還是不錯的(研究者們每天都在outperform其他人……),相對來講,聚類演算法就有些慘不忍睹了。(聚類:這不是我的錯嚶嚶嚶嚶└(t_t;)┘)確實,無監督學習本身的特點使其難以得到如分類一樣近乎完美的結果。這也正如我們在高中做題,答案(標籤)是非常重要的,假設兩個完全相同的人進入高中,乙個正常學習,另一人做的所有題目都沒有答案,那麼想必第乙個人高考會發揮更好,第二個人會發瘋。

這時各位可能要問,既然分類如此之好,聚類如此之不靠譜(分類<( ̄︶ ̄)/,聚類└(t_t;)┘),那為何我們還可以容忍聚類的存在?因為在實際應用中,標籤的獲取常常需要極大的人工工作量,有時甚至非常困難。例如在自然語言處理(nlp)中,penn chinese treebank在2年裡只完成了4000句話的標籤……

這時有人可能會想,難道有監督學習和無監督學習就是非黑即白的關係嗎?有沒有灰呢?good idea。灰是存在的。二者的中間帶就是半監督學習(semi-supervised learning)。對於半監督學習,其訓練資料的一部分是有標籤的,另一部分沒有標籤,而沒標籤資料的數量常常極大於有標籤資料數量(這也是符合現實情況的)。隱藏在半監督學習下的基本規律在於:資料的分布必然不是完全隨機的,通過一些有標籤資料的區域性特徵,以及更多沒標籤資料的整體分布,就可以得到可以接受甚至是非常好的分類結果。(此處大量忽略細節( ̄ε ̄;))

因此,learning家族的整體構造是這樣的:

有監督學習(分類,回歸) 

半監督學習(分類,回歸),transductive learning(不懂怎麼翻譯,直推式學習?)(分類,回歸) 

半監督聚類(有標籤資料的標籤不是確定的,類似於:肯定不是***,很可能是yyy) 

無監督學習(聚類)

2、另一種解釋

有監督學習(supervised learning):我們有乙個資料集,如果對於每乙個單一的資料根據它的特徵向量我們要去判斷它的標籤(演算法的輸出值),那麼就是有監督學習。通俗的說,有監督學習就是比無監督學習多了乙個可以表達這個資料特質的標籤。

我們再來看有監督學習,分為兩個大類:

(1) 回歸分析(regression analysis):回歸分析,其資料集是給定乙個函式和它的一些座標點,然後通過回歸分析的演算法,來估計原函式的模型,求出乙個最符合這些已知資料集的函式解析式。然後它就可以用來預估其它未知輸出的資料了,你輸入乙個自變數它就會根據這個模型解析式輸出乙個因變數,這些自變數就是特徵向量,因變數就是標籤。 而且標籤的值是建立在連續範圍的。 

(2) 分類(classification):其資料集,由特徵向量和它們的標籤組成,當你學習了這些資料之後,給你乙個只知道特徵向量不知道標籤的資料,讓你求它的標籤是哪乙個?結果是離散的。

無監督學習(unsupervised learning):所有資料只有特徵向量沒有標籤,但是可以發現這些資料呈現出聚群的結構,本質是乙個相似的型別的會聚集在一起。把這些沒有標籤的資料分成乙個乙個組合,就是聚類(clustering)。比如google新聞,每天會蒐集大量的新聞,然後把它們全部聚類,就會自動分成幾十個不同的組,每個組內新聞都具有相似的內容結構。

無監督學習還有乙個典型的例子就是雞尾酒會問題(聲音的分離),在這個酒會上有兩種聲音,被兩個不同的麥克風在不同的地方接收到,而可以利用無監督學習來分離這兩種不同的聲音。注意到這裡是無監督學習的原因是,事先並不知道這些聲音中有哪些種類(這裡的種類就是標籤的意思)。

機器學習筆記 監督學習,無監督學習,半監督學習

這個問題可以回答得很簡單 是否有監督 supervised 就看輸入資料是否有標籤 label 輸入資料有標籤,則為有監督學習,沒標籤則為無監督學習。什麼是學習 learning 學習 乙個成語就可概括 舉一反三。此處以高考為例,高考的題目在上考場前我們未必做過,但在高中三年我們做過很多很多題目,懂...

無監督學習與監督學習

1.無監督和有監督的理解方法有很多,主要可以從以下幾方面來理解 1 無監督與監督學習的區別在於乙個無教學值,乙個有教學值。但是,個人認為他們的區別在於無監督學習一般是採用聚簇等演算法來分類不同樣本。而監督學習一般是利用教學值與實際輸出值產生的誤差,進行誤差反向傳播修改權值來完成網路修正的。但是無監督...

監督學習與無監督學習

監督學習 監督學習是指我們給演算法乙個資料集,其中包含了正確答案。也就是說我們給它乙個房價資料集,在這個資料集中的每個樣本,我們都給出正確的 即這個房子實際賣價,演算法的目的就是給出更多的正確答案,輸入和輸出都是有參照的,根據參照,給定乙個新的輸入,新的輸出。如房價 給定某地房子大小和房價的資料,根...