2020 10 27 監督學習和無監督學習區別

2021-10-25 07:45:27 字數 2145 閱讀 7453

機器學習分為:監督學習,無監督學習,半監督學習(也可以用hinton所說的強化學習)等。

在這裡,主要理解一下監督學習和無監督學習。

從給定的訓練資料集中學習出乙個函式(模型引數),當新的資料到來時,可以根據這個函式**結果。監督學習的訓練集要求包括輸入輸出,也可以說是特徵和目標。訓練集中的目標是由人標註的。監督學習就是最常見的分類(注意和聚類區分)問題,通過已有的訓練樣本(即已知資料及其對應的輸出)去訓練得到乙個最優模型(這個模型屬於某個函式的集合,最優表示某個評價準則下是最佳的),再利用這個模型將所有的輸入對映為相應的輸出,對輸出進行簡單的判斷從而實現分類的目的。也就具有了對未知資料分類的能力。監督學習的目標往往是讓計算機去學習我們已經建立好的分類系統(模型)。

監督學習是訓練神經網路和決策樹的常見技術。這兩種技術高度依賴事先確定的分類系統給出的資訊,對於神經網路,分類系統利用資訊判斷網路的錯誤,然後不斷調整網路引數。對於決策樹,分類系統用它來判斷哪些屬性提供了最多的資訊。

常見的有監督學習演算法:回歸分析和統計分類。最典型的演算法是knn和svm。

有監督學習最常見的就是:regression&classification

regression:y是實數vector。回歸問題,就是擬合(x,y)的一條曲線,使得價值函式(costfunction) l最小

classification:y是乙個有窮數(finitenumber),可以看做類標號,分類問題首先要給定有lable的資料訓練分類器,故屬於有監督學習過程。分類過程中cost function l(x,y)是x屬於類y的概率的負對數。

其中fi(x)=p(y=i/x)。

輸入資料沒有被標記,也沒有確定的結果。樣本資料類別未知,需要根據樣本間的相似性對樣本集進行分類(聚類,clustering)試圖使類內差距最小化,類間差距最大化。通俗點將就是實際應用中,不少情況下無法預先知道樣本的標籤,也就是說沒有訓練樣本對應的類別,因而只能從原先沒有樣本標籤的樣本集開始學習分類器設計。

非監督學習目標不是告訴計算機怎麼做,而是讓它(計算機)自己去學習怎樣做事情。非監督學習有兩種思路。第一種思路是在指導agent時不為其指定明確分類,而是在成功時,採用某種形式的激勵制度。需要注意的是,這類訓練通常會置於決策問題的框架裡,因為它的目標不是為了產生乙個分類系統,而是做出最大回報的決定,這種思路很好的概括了現實世界,agent可以對正確的行為做出激勵,而對錯誤行為做出懲罰。

無監督學習的方法分為兩大類:

(1)    一類為基於概率密度函式估計的直接方法:指設法找到各類別在特徵空間的分布引數,再進行分類。

(2)    另一類是稱為基於樣本間相似性度量的簡潔聚類方法:其原理是設法定出不同類別的核心或初始核心,然後依據樣本與核心之間的相似性度量將樣本聚集成不同的類別。

利用聚類結果,可以提取資料集中隱藏資訊,對未來資料進行分類和**。應用於資料探勘,模式識別,影象處理等。

pca和很多deep learning演算法都屬於無監督學習。 

1.      有監督學習方法必須要有訓練集與測試樣本。在訓練集中找規律,而對測試樣本使用這種規律。而非監督學習沒有訓練集,只有一組資料,在該組資料集內尋找規律。

2.      有監督學習的方法就是識別事物,識別的結果表現在給待識別資料加上了標籤。因此訓練樣本集必須由帶標籤的樣本組成。而非監督學習方法只有要分析的資料集的本身,預先沒有什麼標籤。如果發現資料集呈現某種聚集性,則可按自然的聚集性分類,但不予以某種預先分類標籤對上號為目的。

3.      非監督學習方法在尋找資料集中的規律性,這種規律性並不一定要達到劃分資料集的目的,也就是說不一定要「分類」。

這一點是比有監督學習方法的用途要廣。    譬如分析一堆資料的主分量,或分析資料集有什麼特點都可以歸於非監督學習方法的範疇。

4.      用非監督學習方法分析資料集的主分量與用k-l變換計算資料集的主分量又有區別。後者從方法上講不是學習方法。因此用k-l變換找主分量不屬於無監督學習方法,即方法上不是。而通過學習逐漸找到規律性這體現了學習方法這一點。在人工神經元網路中尋找主分量的方法屬於無監督學習方法。 

簡單的方法就是從定義入手,有訓練樣本則考慮採用監督學習方法;無訓練樣本,則一定不能用監督學習方法。但是,現實問題中,即使沒有訓練樣本,我們也能夠憑藉自己的雙眼,從待分類的資料中,人工標註一些樣本,並把它們作為訓練樣本,這樣的話,可以把條件改善,用監督學習方法來做。對於不同的場景,正負樣本的分布如果會存在偏移(可能大的偏移,可能比較小),這樣的話,監督學習的效果可能就不如用非監督學習了。

有監督學習和無監督學習 無監督學習

一.無監督學習包含的演算法 聚類 kmeans聚類演算法 降維 pca 之所以叫無監督學習 是因為模型是從無標籤的資料開始學習,沒有目標值。二.kmeans聚類 1.聚類演算法步驟 定義 將高維資料轉化為低維資料的過程,在此過程中可能會捨棄原有資料,創造新的變數 作用 降低原始資料的維數 複雜度 損...

監督學習和無監督學習

機器學習要解決的第一類問題是分類問題。機器學習的另一項任務是回歸,它主要用於 數值型資料。大多數人可能都見過回歸的例子 資料擬合曲線 通過給定資料點的最優擬合曲線。分類和回歸都屬於監督學習,之所以稱之為監督學習,是因為這類演算法必須知道 什麼,即目標變數的分類資訊。與監督學習對應的是無監督學習,此時...

監督學習,無監督學習和半監督學習

監督學習 supervised learning 無監督學習 unsupervised learning 半監督學習 semi supervised learning 2 概念 監督學習 用一部分已知分類 有標記的樣本來訓練機器後,讓它用學到的特徵,對沒有還分類 無標記的樣本進行分類 貼標籤。一句話...