強化學習基本概念

2021-09-23 22:17:04 字數 777 閱讀 1557

value-based(或q-learning)和policy-based(或policy gradients)是強化學習中最重要的兩類方法,區別在於

value-based是**某個state下所有action的期望價值(q值),之後通過選擇最大q值對應的action執行策略,適合僅有少量離散取值的action的環境;

policy-based是直接**某個state下應該採取的action,適合高維連續action的環境,更通用;

根據是否對state的變化進行**,rl又可以分為model-based和model-free:

model-based,根據state和採取的action**接下來的state,並利用這個資訊訓練強化學習模型(知道狀態的轉移概率);

model-free,不需對環境狀態進行任何**,也不考慮行動將如何影響環境,直接對策略或action的期望價值進行**,計算效率非常高。

因為複雜環境中難以使用model**接下來的環境狀態,所以傳統的drl都是基於model-free。

policy gradient 的最後一步的公式理解起來有點麻煩,因為它表示,更新一次actor的引數,需要等跑完m個trajectory之後,總共n step之後,才能更新一次。而這一次的梯度,由所有step的梯度和那一step所屬的trajectory的reward加權得到。某一step的梯度,可以使用一般的backpropogation得到,也就是actor的模型是已經設定好的,需要根據輸入,目標函式和當前模型引數,得到當前模型引數的上公升梯度,這和cnn類似,模型引數,輸入,目標函式,進而得到當前模型引數的梯度。

強化學習基本概念

rl演算法種類 強化學習方法 相關概念 對於機器 先採取動作再接受環境的狀態和獎勵 對於環境 接受機器的動作,做出下乙個的狀態和獎勵 s0當前的狀態,a0當前的動作,r1當前的獎勵 馬爾科夫決策下一刻的狀態只和當前狀態有關,和之前無關 強化學習的目標使rt最大化 1.每一時刻加起來的r e.p.人一...

強化學習的基本概念

mdp markov decission process 馬爾可夫決策流程 代表了強化學習要解決的問題。有幾個構成 1 一組 有限的 狀態s s0,s1,s 2,st st 1.s 0,s 1,s 2,s t,s s0 s1 s2 st st 1 階段性任務的狀態集合記作s s s 2 一組 有限的...

強化學習系列 1 基本概念

figure 1 1 reinforcement learning is a multidisciplinary concept 3.強化學習如何解決問題以及一些相關概念 強化學習不同於有監督學習和無監督學習,它不關心輸入長什麼樣子,只關心當前輸入下應該採用什麼樣的動作才能實現最終目標。當前採用什麼...