2019 5 13 基於模型的強化學習方法

2021-09-22 12:27:42 字數 1137 閱讀 3564

注:**寫作四項工作

看懂」一篇

工作二:提出難點問題,提出新概念。例:多光譜、注意力機制

工作三:修改演算法,網路結構、損失函式、步數

基於模型的的強化學習是比無模型難很多的問題。

一、狀態轉移概率

1、馬氏決策過程可以利用五元組(s,a,p,r,y)來描述。根據狀態轉移概率是否已知,可以分為基於模型和基於無模型的強化學習方法。

2、狀態轉移為什麼會不可知?

比如一階倒立擺,設定狀態為位置和角度,動作為左右施加力。狀態轉移概率可以通過公式計算。

比如高階倒立擺,同樣的狀態和動作,狀態轉移概率基本無法通過公式計算。

所以,狀態轉移概率不可知的原因:問題的複雜度,環境不能完全觀測

二、動態規劃

三、基於模型的強化學習可以利用動態規劃解決

1、基於模型的強化學習可以利用動態規劃解決。

動態指序列狀態變化,規劃指優化,如線性優化、二次優化、非線性優化。

動態規劃分策略迭代、值迭代兩種方法

2、值迭代:值迭代是用來估計最優值函式的一種方法。不同於策略迭代,值迭代直接收斂到最優策略和最優值函式

3、策略迭代:策略評估、策略改進迭代,直到策略收斂。

4、公式推導

累計回報:

狀態值函式:

狀態行為函式(q函式):

最優貝爾克曼方程:

**:增強學習(一)——馬爾科夫決策過程(mdp)

四、pilco

底層:採用高斯過程模型學習狀態轉移的概率模型。

中層:利用狀態轉移模型和策略,評估累計回報(類似於損失函式)。

頂層:利用梯度法,對策略的引數更新。

參考文獻:

強化學習前沿 第三講 基於模型的強化學習方法 pilco及其擴充套件(二)

基於模型的強化學習

1 在model based rl裡,雖然學習mdp模型可以提高強化學習的效率,但是如果模型誤差較大可能導致學不到較好的策略,這個問題一般怎麼解決?如果模型學習的不夠精準,那就只能用很短很短的rollout來做planning。例如q planning就是1步的rollout,這樣並不能特別高的提公...

強化學習筆記 3 1 基於模型的動態規劃方法

深入淺出強化學習原理入門學習筆記 3.基於模型的動態規劃方法首先解釋一下什麼是有模型和無模型,馬爾科夫決策過程用元組表示是 s,a,p,r,big s,a,p,r,gamma big s,a,p r,s ss為有限狀態集,a aa為有限動作集,p pp是狀態轉移概率 包含動作 r rr為回報函式,g...

RL(九)基於策略的強化學習

前面的演算法都是基於價值來算的,但是當處理連續動作的問題時,就顯得力不從心了,因為我們需要求的q錶太大,根本無法滿足我們的需要。前面我們在演算法分類的時候也講過,我們可以按基於價值和基於策略的方式來給rl分類,所以這篇部落格就是用基於策略演算法來求解強化學習問題。值函式近似法 在值函式近似法中,動作...