深度增強學習David Silver(一) 介紹

2021-07-31 12:54:12 字數 1199 閱讀 8497

lecture 01 對增強學習進行概述,並安排接下去的課程內容。

增強學習和監督學習**不同?

- 沒有監督值,只有獎勵值 (reward signal)

- 反饋延時,而不是馬上得到

- 智慧型體的行動影響它接下來接收的資料

增強學習是乙個序列決策的問題,決策目標是:選擇行動以最大化未來總獎勵(total future reward)。「未來」意味著要有長遠的打算,不侷限於當前的行動產生的立即獎勵。

以下是一張經典的智慧型體和環境的互動圖:

歷史(history)是觀察(observation)、行動(action)、獎勵(reward)的序列集合。狀態是關於歷史的函式。通過狀態(state)來決定下一步會發生什麼(比如智慧型體選擇什麼動作,環境給予什麼獎勵,怎麼變化)。 ht

=o1,

r1,a

1,..

.,ot

,rt,

at s

t=f(

ht)

狀態分為三類,如下:se

t 表示sa

t 表示

information state:包含所有歷史有用的資訊,也稱作markov state,該狀態足以**未來,用st

表示環境(environment)分為完全可觀察和部分可觀察,如下:

智慧型體包括:

policy和value function的區別如下:

序列決策中有兩個基本問題:

planning:

增強學習是乙個試錯的學習過程,不斷尋找exploration(廣度,希望遍歷盡量多的可能)和exploitation(深度,希望效果盡量好)的平衡。由此引申出prediction(給定乙個policy,**未來獎勵)和control(探索最優policy,最優化未來獎勵),這個後面會講到。

以下是後面幾節課的安排:

深度增強學習入門筆記(一)

知乎專欄智慧型單元的學習筆記,僅為自己學習所用,侵刪。openai的三個主要研究方向 1.深度生成模型 deep generative model 通過學習現有的資料生成新的資料。相關研究 1 otoro.net 學習文字自動生成新的文字 2 deep dream neural art 畫風遷移 3...

深度增強學習入門筆記(二)

知乎專欄智慧型單元的學習筆記,就真的只是一邊看一邊記的而已,僅為自己學習所用,侵刪。是增強學習領域最重要的乙個方程。使用價值函式進行決策就需要計算這個函式,那怎麼計算呢?bellman方程。簡而言之,bellman方程的作用 表明價值函式是可以迭代進行計算的。將價值函式的公式 a 表示,s代表狀態,...

深度學習中的資料增強

關於計算機視覺領域資料增強的一些常用的方法一般而言,比較成功的神經網路需要大量的引數,許許多多的神經網路的引數都是數以百萬計,而使得這些引數可以正確工作則需要大量的資料進行訓練,而實際情況中資料並沒有我們想象中的那麼多 增加訓練的資料量,提高模型的泛化能力 增加雜訊資料,提公升模型的魯棒性 如何獲得...