強化學習筆記(1) 概述

2021-10-21 03:30:06 字數 954 閱讀 8164

強化學習的兩大主體:agent和environment

強化學習討論的問題是乙個智慧型體(agent) 怎麼在乙個複雜不確定的環境(environment)裡面去極大化它能獲得的獎勵。

當前的 agent 去跟環境互動,你就會得到一堆觀測。你可以把每乙個觀測看成乙個軌跡(trajectory).一場遊戲叫做乙個episode(回合)或者trial(試驗)

有效動作的集合經常被稱為動作空間(action space),動作空間分為離散動作空間(discrete action spaces)連續動作空間(continuous action spaces)

對於乙個強化學習 agent,它可能有乙個或多個如下的組成成分:

強化學習中,探索利用是兩個很核心的問題,如何平衡兩者的關係非常重要

歷史是觀測(observation)、行為、獎勵的序列:

你可以把整個遊戲的狀態看成關於這個歷史的函式:

環境有自己的函式 ste

=fe(

ht)s_^=f^\left(h_\right)

ste​=f

e(ht

​)來更新狀態,在 agent 的內部也有乙個函式 sta

=fa(

ht)s_^=f^\left(h_\right)

sta​=f

a(ht

​)來更新狀態。

根據 agent 學習的東西不同,我們可以把 agent 進行歸類:

agent 到底有沒有學習這個環境模型來分類:

強化學習 學習筆記1

基本任務 agent如何在複雜不確定的環境中極大化所獲得的的獎勵。基本概念 action environment接收到的agent當前狀態的輸出。state agent從environment中獲取到的狀態。reward agent從environment中獲取的反饋訊號,這個訊號指定了agent在...

強化學習之概述

面向智慧型體的學習 通過與乙個環境進行互動來實現目標 通過試錯和優化進行學習 用試錯後的獎勵 或懲罰 進行學習 監督學習本質上可以認為是強化學習的一種特殊形式 無延遲場景 強化學習更貼近人類的學習過程 強化學習可能是通往通用人工智慧的道路,目前人工智慧都是弱人工智慧 強化學習整體結構由環境,智慧型體...

強化學習1

這是第一篇強化學習的學習筆記,會覆蓋幾個基本的概念。程式本身,接受環境的訊號,作出行動,影響環境,形成乙個閉環。價值函式,通過value來評估哪一些狀態和動作是好的,選擇那些能夠提高value的動作和狀態。動作,當agent觀察到環境的狀態後,可以作出一些行動去影響環境,比如自動駕駛的汽車看到路面的...