監督學習 無監督學習 強化學習的區別

2021-10-23 04:04:05 字數 1009 閱讀 8847

目前機器學習主流分為三大類:監督學習,無監督學習和強化學習

舉個例子,我們經常考試,試卷上的題目我們未必都做過,但是在複試的時候會刷很多題,通過這些題目我們學會了階梯方法,在考試時面對陌生的題目也能做出來。

同樣機器學習也是乙個舉一反三的過程,我們可以利用一些訓練資料,使機器能夠利用它們分析未知資料

通過計算的手段利用經驗來改善系統自身的效能,其實它研究的問題就是學習演算法,就是說我們把經驗資料給它,然後它基於這些經驗產生模型,下次遇到新情況時,模型就會給我們判斷。

監督學習分為兩大問題:「回歸」和「分類」。

在回歸問題中,我們會**乙個連續值比如說**明天多少度,**房價多少錢等等,而分類問題就是**明天是什麼天氣,多雲、下雨還是晴天,它與分類問題的區別就在於分類問題的結果是乙個類別,**結果不是對就是錯,而回歸問題是對真實值的一種逼近**,你的**值與真實值差距越小則越好,不會存在對錯的概念,比如**房價為999元,真實**為1000元,我們認為這是乙個比較好的回歸分析。

監督學習其實就是根據已有的資料集,知道輸入和輸出結果之間的關係,根據這種關係訓練得到乙個最優的模型。監督學習中訓練資料是有標籤的。

監督學習的目的是通過學習許多有標籤的樣本,然後對新的資料做出**。

無監督學習中,我們基本不知道結果會是什麼樣,但可以通過聚類的方式從資料中提取乙個特殊的結構。在無監督學習中給定的資料集是和監督學習中給定的資料集不一樣。無監督學習的訓練資料沒有相關的標籤。

無監督學習演算法的目標是以某種方式組織資料,然後找出資料中存在的內在結構。這包括將資料進行聚類,或者找到更簡單的方式處理複雜資料,使複雜資料看起來更簡單。

強化學習是一種學習模型,它不會直接給你解決方案,需要通過試錯的方式去尋找。alphago用的就是強化學習。

強化學習不需要標籤,你選擇的行動越好,得到的反饋越多。所以你能通過執行這些行動看是輸是贏來學習下圍棋,不需要有人告訴你什麼是好的行動什麼是壞的行動。

參考:

監督學習 無監督學習 強化學習

學習的種類分為監督學習 無監督學習 強化學習等,我們將學生比作計算機,老師比作周圍的環境 資料 監督學習 對於有標籤的資料進行學習,目的是能夠正確判斷無標籤的資料。通俗的講,老師教授學生知識,並告知學習過程中的對與錯,讓學生可以從所學知識的經驗和技能中對沒有學過的問題進行正確回答,這就是監督學習,用...

監督學習 無監督學習 半監督學習 強化學習

目錄 監督學習 非監督學習 半監督學習 強化學習 懶散學習法 積極學習法 1 訓練資料有標柱類別 2 指根據訓練資料學習乙個模型,然後能對後來的輸入做 3 輸入變數和輸出變數可以是連續的,也可以是離散的。若輸入變數和輸出變數均為連續變數,則稱為回歸 輸出變數為有限個離散變數,則稱為分類。4 必須要有...

有監督學習和無監督學習 無監督學習

一.無監督學習包含的演算法 聚類 kmeans聚類演算法 降維 pca 之所以叫無監督學習 是因為模型是從無標籤的資料開始學習,沒有目標值。二.kmeans聚類 1.聚類演算法步驟 定義 將高維資料轉化為低維資料的過程,在此過程中可能會捨棄原有資料,創造新的變數 作用 降低原始資料的維數 複雜度 損...