《強化學習》馬爾可夫決策過程MDP

2022-04-28 09:49:02 字數 1644 閱讀 2850

狀態自動機:

mdp和nfa唯一相似的地方就是它們都有狀態轉移,拋掉這一點兩者就八竿子打不著了。

我們用貝爾曼期望方程求解在某個給定策略π和環境env下的價值函式:

具體解法是:(下面是對於v(s)的解法)

從而對於每乙個特定的π,都能得到其對應的價值函式。所以我們可以有一組的

但是我們解決問題的目標是拿到最優的那組,其他的扔掉,解決方法就是使用貝爾曼最優方程確定最優價值函式。

我們的「最優價值函式」和「最優策略」是如下定義的,找最優價值函式的過程也就是找最優策略的過程

最優價值函式     ====    乙個mdp中的可能的最好的表現

解決乙個mdp    ====    確定唯一的最優價值函式

傳統的強化學習演算法就是找定「最優價值」&「最優策略」的演算法,好比svm是要找定「最大間隔超平面」(「傳統」和「現代」相區分,「現代」強化學習演算法都是使用神經網路將其不確定化,轉化為乙個回歸問題,訓練模型引數,拋棄了「傳統」方法的數學硬推)。

貝爾曼最優方程是非線性的,沒有乙個固定解法。所以,你就知道這是最原始的強化學習問題就好了,沒有人會用這個硬推來解決強化學習問題的。

比它稍微高階一點兒,我們採用迭代法來求解最優價值最優策略:

——value iteration

——policy iteration

——q-learning

——sarsa

——sarsa(lamda)

轉換為離散mdp即可。

強化學習 MDP 馬爾可夫決策過程 演算法原理

前面的強化學習基礎知識介紹了強化學習中的一些基本元素和整體概念。今天講解強化學習裡面最最基礎的mdp 馬爾可夫決策過程 mdp是當前強化學習理論推導的基石,通過這套框架,強化學習的互動流程可以很好地以概率論的形式表示出來,解決強化學習問題的關鍵定理也可以依此表示出來。mdp 馬爾可夫決策過程 包含以...

強化學習 馬爾可夫決策過程

參考 推薦 一 馬爾可夫性 agent與environment的互動過程可以表示為乙個序列 馬爾可夫性 下乙個狀態的產生只和上乙個狀態有關,而與更之前的狀態無關。即 p left s s 1,s 2,s t right p left s s t right 這個條件雖然在某些問題上有些理想,但是極大...

馬爾可夫決策過程 MDP

但是馬爾科夫過程中不存在動作 action 和獎勵 reward 所有馬爾科夫過程不足以描述圖1所示的強化學習過程。將動作 action 和獎勵 reward 考慮到馬爾科夫過程中去就得到了馬爾科夫決策過程。跟馬爾科夫過程不同的是,馬爾科夫決策過程的狀態轉移概率是包含動作的即 pss a p st ...