增強學習(三) MDP的動態規劃解法

2021-09-07 02:52:32 字數 497 閱讀 6334

那麼如何求解最優策略呢?基本的解法有三種:

動態規劃法(dynamic programming methods)

蒙特卡羅方法(monte carlo methods)

時間差分法(temporal difference)。

動態規劃法是其中最基本的演算法,也是理解後續演算法的基礎,因此本文先介紹動態規劃法求解mdp。本文假設擁有mdp模型m=(s, a, psa, r)的完整知識。

1. 貝爾曼方程(bellman equation)

在動態規劃中,上面兩個式子稱為貝爾曼方程,它表明了當前狀態的值函式與下個狀態的值函式的關係。

優化目標π*可以表示為:

分別記最優策略π*對應的狀態值函式和行為值函式為v*(s)和q*(s, a),由它們的定義容易知道,v*(s)和q*(s, a)存在如下關係:

狀態值函

增強學習(三) MDP的動態規劃解法

那麼如何求解最優策略呢?基本的解法有三種 動態規劃法 dynamic programming methods 蒙特卡羅方法 monte carlo methods 時間差分法 temporal difference 動態規劃法是其中最基本的演算法,也是理解後續演算法的基礎,因此本文先介紹動態規劃法求...

增強學習(三) MDP的動態規劃解法

那麼如何求解最優策略呢?基本的解法有三種 動態規劃法 dynamic programming methods 蒙特卡羅方法 monte carlo methods 時間差分法 temporal difference 動態規劃法是其中最基本的演算法,也是理解後續演算法的基礎,因此本文先介紹動態規劃法求...

增強學習(三) MDP的動態規劃解法

那麼如何求解最優策略呢?基本的解法有三種 動態規劃法 dynamic programming methods 蒙特卡羅方法 monte carlo methods 時間差分法 temporal difference 動態規劃法是其中最基本的演算法,也是理解後續演算法的基礎,因此本文先介紹動態規劃法求...