機器學習筆記 監督學習,無監督學習,半監督學習

2021-08-21 20:23:09 字數 2135 閱讀 3077

這個問題可以回答得很簡單:是否有監督(supervised),就看輸入資料是否有標籤(label)。輸入資料有標籤,則為有監督學習,沒標籤則為無監督學習。

什麼是學習(learning)?

學習:乙個成語就可概括:舉一反三。此處以高考為例,高考的題目在上考場前我們未必做過,但在高中三年我們做過很多很多題目,懂解題方法,因此考場上面對陌生問題也可以算出答案。機器學習的思路也類似:我們能不能利用一些訓練資料(已經做過的題),使機器能夠利用它們(解題方法)分析未知資料(高考的題目)?

什麼是監督學習?

監督學習(supervised learning)

:通過已有的訓練樣本(即已知資料以及其對應的輸出)來訓練

,從而得到乙個最優模型,再利用這個模型將所有新的資料樣本對映為相應的輸出結果,對輸出結果進行簡單的判斷從而實現分類的目的

,那麼這個最優模型也就具有了對未知資料進行分類的能力。

監督學習中只要輸入樣本集,機器就可以從中推演出制定目標變數的可能結果.如協同過濾推薦演算法,通過對訓練集進行監督學習,並對測試集進行**,從而達到**的目的。監督學習裡典型的例子就是knn、svm,

決策樹、神經網路以及疾病監測。

目前分類演算法的效果還是不錯的,但相對來講,聚類演算法就有些慘不忍睹了。確實,無監督學習本身的特點使其難以得到如分類一樣近乎完美的結果。這也正如我們在高中做題,答案(標籤)是非常重要的,假設兩個完全相同的人進入高中,乙個正常學習,另一人做的所有題目都沒有答案,那麼想必第乙個人高考會發揮更好,第二個人會發瘋。

什麼是無監督學習?

無監督學習(unsupervised learning)

:我們事先沒有任何訓練資料樣本,需要直接對資料進行建模。比如我們去參觀乙個畫展,我們對藝術一無所知,但是欣賞完很多幅作品之後,我們面對一幅新的作品之後,至少可以知道這幅作品是什麼派別的吧,比如更抽象一些還是更寫實一點,雖然不能很清楚的了解這幅畫的含義,但是至少我們可以把它分為哪一類。

再給大家舉乙個無監督學習的例子。遠古時期,我們的祖先打獵吃肉,他們本身之前是沒有經驗而言的,當有人用很粗的石頭去割動物的皮的時候,發現很難把皮隔開,但是又有人用很薄的石頭去割,發現比別人更加容易的隔開動物的毛皮,於是,第二天、第三天、……,他們就知道了需要尋找比較薄的石頭片來割。這些就是無監督學習的思想,外界沒有經驗和訓練資料樣本提供給它們,完全靠自己摸索。

無監督學習裡典型的例子就是聚類了。聚類的目的在於把相似的東西聚在一起,而我們並不關心這一類是什麼。因此,乙個聚類演算法通常只需要知道如何計算相似度就可以開始工作了。

什麼是半監督學習?

半監督學習(unsupervised learning):

這時有人可能會想,難道有監督學習和無監督學習就是非黑即白的關係嗎?有沒有灰呢?good idea。灰是存在的。二者的中間帶就是半監督學習(semi-supervised learning)。對於半監督學習,其訓練資料的一部分是有標籤的,另一部分沒有標籤,而沒標籤資料的數量常常極大於有標籤資料數量(這也是符合現實情況的)。隱藏在半監督學習下的基本規律在於:資料的分布必然不是完全隨機的,通過一些有標籤資料的區域性特徵,以及更多沒標籤資料的整體分布,就可以得到可以接受甚至是非常好的分類結果。(此處大量忽略細節)

總結

因此,learning家族的整體構造是這樣的:

有監督學習(分類,回歸)

半監督學習(分類,回歸),transductive learning(分類,回歸)

半監督聚類(有標籤資料的標籤不是確定的,類似於:肯定不是***,很可能是yyy)

無監督學習(聚類)

那麼,什麼時候應該採用監督學習,什麼時候應該採用非監督學習呢?一種非常簡單的回答就是從定義入手,

如果我們在分類的過程中有訓練樣本(training data),則可以考慮用監督學習的方法

;如果沒有訓練樣本,則不可能用監督學習的方法。但是事實上,我們在針對乙個現實問題進行解答的過程中,即使我們沒有現成的訓練樣本,我們也能夠憑藉自己的雙眼,從待分類的資料中人工標註一些樣本,並把他們作為訓練樣本,這樣的話就可以把條件改善,用監督學習的方法來做。

機器學習日記 監督學習 無監督學習

監督學習是指 利用一組已知類別的樣本調整 分類器的 引數,使其達到所要求效能的過程,也稱為 監督訓練或有教師學習。無監督學習 現實生活中常常會有這樣的問題 缺乏足夠的 先驗知識 因此難以人工標註類別或進行人工類別標註的成本太高。很自然地,我們希望計算機能代我們完成這些工作,或至少提供一些幫助。根據類...

機器學習筆記 監督學習 無監督學習分類筆記

無監督學習 給出一資料組,並已知曉這組資料的對應關係,然後給出一組新的資料,嘗試對其進行 和分析,這裡注意,提前給出的資料組 data set 是已知內部的資料的對應關係,後面給出的新的資料,是要依據對之前資料的學習後,給出新的資料對應的 值。而對於 的結果的不同,又將監督學習分為分類 classf...

有監督學習和無監督學習 無監督學習

一.無監督學習包含的演算法 聚類 kmeans聚類演算法 降維 pca 之所以叫無監督學習 是因為模型是從無標籤的資料開始學習,沒有目標值。二.kmeans聚類 1.聚類演算法步驟 定義 將高維資料轉化為低維資料的過程,在此過程中可能會捨棄原有資料,創造新的變數 作用 降低原始資料的維數 複雜度 損...