(1)在model-based rl裡,雖然學習mdp模型可以提高強化學習的效率,但是如果模型誤差較大可能導致學不到較好的策略,這個問題一般怎麼解決?
如果模型學習的不夠精準,那就只能用很短很短的rollout來做planning。例如q-planning就是1步的rollout,這樣並不能特別高的提公升sample efficiency。
如果模型比較準,那就可以用model-based policy optimization (mbpo)這種方法去做一定長度(k-step)的rollout,這樣能進一步提高sample efficiency。
(2)基於模型的強化學習與模型無關的強化學習
基於模型的強化學習(model based),一種是mdp,根據價值迭代或者策略迭代求解。另外一種是,一開始環境未知,通過和環境互動的經驗,把這個未知的環境變成乙個近似已知的mdp,再用價值迭代或者策略迭代求解。
模型無關的強化學習(model free),通過和環境互動的經驗,直接學得每個狀態或者狀態-動作的價值函式,或者直接學得乙個策略函式,整個過程並沒有把環境求解出來。
2019 5 13 基於模型的強化學習方法
注 寫作四項工作 看懂 一篇 工作二 提出難點問題,提出新概念。例 多光譜 注意力機制 工作三 修改演算法,網路結構 損失函式 步數 基於模型的的強化學習是比無模型難很多的問題。一 狀態轉移概率 1 馬氏決策過程可以利用五元組 s,a,p,r,y 來描述。根據狀態轉移概率是否已知,可以分為基於模型和...
強化學習 強化學習基礎
為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...
強化學習筆記 3 1 基於模型的動態規劃方法
深入淺出強化學習原理入門學習筆記 3.基於模型的動態規劃方法首先解釋一下什麼是有模型和無模型,馬爾科夫決策過程用元組表示是 s,a,p,r,big s,a,p,r,gamma big s,a,p r,s ss為有限狀態集,a aa為有限動作集,p pp是狀態轉移概率 包含動作 r rr為回報函式,g...