2019 5 13 基於模型的強化學習方法

注：**寫作四項工作

看懂」一篇

工作二：提出難點問題，提出新概念。例：多光譜、注意力機制

工作三：修改演算法，網路結構、損失函式、步數

基於模型的的強化學習是比無模型難很多的問題。

一、狀態轉移概率

1、馬氏決策過程可以利用五元組（s,a,p,r,y）來描述。根據狀態轉移概率是否已知，可以分為基於模型和基於無模型的強化學習方法。

2、狀態轉移為什麼會不可知？

比如一階倒立擺，設定狀態為位置和角度，動作為左右施加力。狀態轉移概率可以通過公式計算。

比如高階倒立擺，同樣的狀態和動作，狀態轉移概率基本無法通過公式計算。

所以，狀態轉移概率不可知的原因：問題的複雜度，環境不能完全觀測

二、動態規劃

三、基於模型的強化學習可以利用動態規劃解決

1、基於模型的強化學習可以利用動態規劃解決。

動態指序列狀態變化，規劃指優化，如線性優化、二次優化、非線性優化。

動態規劃分策略迭代、值迭代兩種方法

2、值迭代：值迭代是用來估計最優值函式的一種方法。不同於策略迭代，值迭代直接收斂到最優策略和最優值函式。

3、策略迭代：策略評估、策略改進迭代，直到策略收斂。

4、公式推導

累計回報：

狀態值函式：

狀態行為函式（q函式）：

最優貝爾克曼方程：

**：增強學習（一）——馬爾科夫決策過程（mdp）

四、pilco

底層：採用高斯過程模型學習狀態轉移的概率模型。

中層：利用狀態轉移模型和策略，評估累計回報（類似於損失函式）。

頂層：利用梯度法，對策略的引數更新。

參考文獻：

強化學習前沿第三講基於模型的強化學習方法 pilco及其擴充套件（二）

基於模型的強化學習

1 在model based rl裡，雖然學習mdp模型可以提高強化學習的效率，但是如果模型誤差較大可能導致學不到較好的策略，這個問題一般怎麼解決？如果模型學習的不夠精準，那就只能用很短很短的rollout來做planning。例如q planning就是1步的rollout，這樣並不能特別高的提公...

強化學習筆記 3 1 基於模型的動態規劃方法

深入淺出強化學習原理入門學習筆記 3.基於模型的動態規劃方法首先解釋一下什麼是有模型和無模型，馬爾科夫決策過程用元組表示是 s,a,p,r,big s,a,p,r,gamma big s,a,p r,s ss為有限狀態集,a aa為有限動作集，p pp是狀態轉移概率包含動作 r rr為回報函式，g...

RL（九）基於策略的強化學習

前面的演算法都是基於價值來算的，但是當處理連續動作的問題時，就顯得力不從心了，因為我們需要求的q錶太大，根本無法滿足我們的需要。前面我們在演算法分類的時候也講過，我們可以按基於價值和基於策略的方式來給rl分類，所以這篇部落格就是用基於策略演算法來求解強化學習問題。值函式近似法在值函式近似法中，動作...

2019 5 13 基於模型的強化學習方法

基於模型的強化學習

強化學習筆記 3 1 基於模型的動態規劃方法

RL（九）基於策略的強化學習

相關推薦