指 機器已對環境進行了建模,能在機器內部模擬出與環境相同或近似的狀況
此時,任意狀態x下執行動作a轉移到x'的概率p是已知的,該轉移帶來的獎賞r也是已知的
model-based的問題可以用傳統的強化學習方法來解決,比如動態規劃,可以用bellman等式求得數值解
指 由於實際中沒法對環境進行建模,所以學習演算法不依賴於環境建模(通常比model-based的問題要難,也更常見,多數強化學習問題都是model-free的)
此時,環境的轉移概率、獎賞函式都是未知的
model-free的問題可以用q-learning、sarsa等方法,也可以用dqn、a3c等神經網路的方法
學習優化的物件是value,即值函式v
學習優化的物件是policy,即在狀態x下選擇動作a的概率π(x, a)
有沒有乙個演算法結合value-based和action-based的優點呢?即又能處理高維、連續的action space,又能單步更新快速學習呢?那就是actor-critic,ddpg等演算法了。
參考:
強化學習基本概念
value based 或q learning 和policy based 或policy gradients 是強化學習中最重要的兩類方法,區別在於 value based是 某個state下所有action的期望價值 q值 之後通過選擇最大q值對應的action執行策略,適合僅有少量離散取值的a...
強化學習基本概念
rl演算法種類 強化學習方法 相關概念 對於機器 先採取動作再接受環境的狀態和獎勵 對於環境 接受機器的動作,做出下乙個的狀態和獎勵 s0當前的狀態,a0當前的動作,r1當前的獎勵 馬爾科夫決策下一刻的狀態只和當前狀態有關,和之前無關 強化學習的目標使rt最大化 1.每一時刻加起來的r e.p.人一...
強化學習的基本概念
mdp markov decission process 馬爾可夫決策流程 代表了強化學習要解決的問題。有幾個構成 1 一組 有限的 狀態s s0,s1,s 2,st st 1.s 0,s 1,s 2,s t,s s0 s1 s2 st st 1 階段性任務的狀態集合記作s s s 2 一組 有限的...