最近學習了
mdp,檢視一些資料,本文翻譯了維基百科
。有許多地方翻譯的不好,有翻譯錯的地方請多多諒解!歡迎給我留下意見,我會盡快更改!
值得注意的變種
值迭代
在值迭代(貝爾曼
1957
年)中,也被稱為
逆向歸納法,π
陣列是不被使用的,而是當需要時就計算
π(s)
的值。
代入π(s)
的計算結果到
v(s)
得到下面的合併步驟:
s 重申的,直到每個狀態收斂到左邊等於右邊(
bellman
方程)。
策略迭代
在政策迭代(霍華德
1960
年)中,第一步是進行一次,然後重複步驟二直到收斂。然後,第一步是重新執行一次等。
而不是重複步驟二的銜接,可能像乙個線性方程組集合的規劃和求解。
這種變體的優點是有乙個明確的終止條件:針對所有狀態當陣列
π在應用步驟
1的過程中不會改變,則演算法結束。
修改策略迭代
在修改後的策略迭代(
van nunen
,1976; puterman
和shin 1978
),第一步是進行一次,然後第二步是反覆多次。然後,第一步是重新執行一次等。
優先掃除
在這種變異中,所有步驟是優先適用於在某些方面重要的狀態
---無論是基於演算法的(對
v 有大的變化或那些狀態附近的
π ),或基於使用的(這些狀態附近初始化狀態,或引起人或程式中演算法興趣的)。
馬爾可夫決策過程 MDP
但是馬爾科夫過程中不存在動作 action 和獎勵 reward 所有馬爾科夫過程不足以描述圖1所示的強化學習過程。將動作 action 和獎勵 reward 考慮到馬爾科夫過程中去就得到了馬爾科夫決策過程。跟馬爾科夫過程不同的是,馬爾科夫決策過程的狀態轉移概率是包含動作的即 pss a p st ...
work 馬爾可夫決策過程MDP
1.馬爾可夫模型的幾類子模型 大家應該還記得馬爾科夫鏈 markov chain 了解機器學習的也都知道隱馬爾可夫模型 hidden markov model,hmm 它們具有的乙個共同性質就是馬爾可夫性 無後效性 也就是指系統的下個狀態只與當前狀態資訊有關,而與更早之前的狀態無關。馬爾可夫決策過程...
馬爾可夫過程
馬爾可夫過程是電子通訊系統中最常見的一種隨機過程,它在資訊處理 自動控制 近代物理 電腦科學以及公用事業等很多方面都有非常重要的應用 例如我們常常提到的泊松過程和維納過程就是兩種特殊的馬爾可夫過程。基本概念 馬爾可夫過程是一種無後效的隨機過程。所謂無後效性是指,當過程在時刻tm所處的狀態為已知時,過...