注:**寫作四項工作看懂」一篇
工作二:提出難點問題,提出新概念。例:多光譜、注意力機制
工作三:修改演算法,網路結構、損失函式、步數
基於模型的的強化學習是比無模型難很多的問題。一、狀態轉移概率
1、馬氏決策過程可以利用五元組(s,a,p,r,y)來描述。根據狀態轉移概率是否已知,可以分為基於模型和基於無模型的強化學習方法。
2、狀態轉移為什麼會不可知?
比如一階倒立擺,設定狀態為位置和角度,動作為左右施加力。狀態轉移概率可以通過公式計算。
比如高階倒立擺,同樣的狀態和動作,狀態轉移概率基本無法通過公式計算。
所以,狀態轉移概率不可知的原因:問題的複雜度,環境不能完全觀測
二、動態規劃
三、基於模型的強化學習可以利用動態規劃解決
1、基於模型的強化學習可以利用動態規劃解決。
動態指序列狀態變化,規劃指優化,如線性優化、二次優化、非線性優化。
動態規劃分策略迭代、值迭代兩種方法
2、值迭代:值迭代是用來估計最優值函式的一種方法。不同於策略迭代,值迭代直接收斂到最優策略和最優值函式。
3、策略迭代:策略評估、策略改進迭代,直到策略收斂。
4、公式推導
累計回報:
狀態值函式:
狀態行為函式(q函式):
最優貝爾克曼方程:
**:增強學習(一)——馬爾科夫決策過程(mdp)
四、pilco
底層:採用高斯過程模型學習狀態轉移的概率模型。
中層:利用狀態轉移模型和策略,評估累計回報(類似於損失函式)。
頂層:利用梯度法,對策略的引數更新。
參考文獻:
強化學習前沿 第三講 基於模型的強化學習方法 pilco及其擴充套件(二)
基於模型的強化學習
1 在model based rl裡,雖然學習mdp模型可以提高強化學習的效率,但是如果模型誤差較大可能導致學不到較好的策略,這個問題一般怎麼解決?如果模型學習的不夠精準,那就只能用很短很短的rollout來做planning。例如q planning就是1步的rollout,這樣並不能特別高的提公...
強化學習筆記 3 1 基於模型的動態規劃方法
深入淺出強化學習原理入門學習筆記 3.基於模型的動態規劃方法首先解釋一下什麼是有模型和無模型,馬爾科夫決策過程用元組表示是 s,a,p,r,big s,a,p,r,gamma big s,a,p r,s ss為有限狀態集,a aa為有限動作集,p pp是狀態轉移概率 包含動作 r rr為回報函式,g...
RL(九)基於策略的強化學習
前面的演算法都是基於價值來算的,但是當處理連續動作的問題時,就顯得力不從心了,因為我們需要求的q錶太大,根本無法滿足我們的需要。前面我們在演算法分類的時候也講過,我們可以按基於價值和基於策略的方式來給rl分類,所以這篇部落格就是用基於策略演算法來求解強化學習問題。值函式近似法 在值函式近似法中,動作...