分幕式任務有起始時刻和最終時刻,在這類任務中,智慧型體和環境的互動能被自然地分成一系列子串行(每個序列都存在最終時刻),稱每個子串行為幕 (episodes,在某些文獻中也被稱為trials),例如一盤遊戲、一次走迷宮的旅程或任何這類重複性的互動過程。每幕都以一種特殊狀態結束,稱之為終結狀態(terminal state)。隨後會重新從某個標準的起始狀態或起始狀態中的某個狀態樣本開始。即使結束的方式不同,例如比賽的勝負,下一幕的開始狀態與上一幕的結束方式完全無關。例如超級馬里奧,起始狀態就是遊戲開始介面,終結狀態就是被殺死或者到達最後關卡。因此,這些幕可以被認為在同樣的終結狀態下結束,只是對不同的結果有不同的收益。具有這種分幕重複特性的任務稱為分幕式任務。有時,我們需要區分非終結狀態集,記為\(s\),和包含終結與非終結狀態的所有狀態集,記作\(s^+\)。
一般來說,我們尋求的是最大化期望回報,記為\(g_t\),它被定義為收益序列的一些特定函式。在最簡單的情況下,回報是收益的總和:
\[g_t \doteq r_ + r_ + r_ + \cdots + r_t
\]其中\(t\)為最終時刻。
許多情況下,智慧型體-環境的互動不一定能被自然地分為單獨的episode,而是持續不斷地發生。例如:長期執行的機械人應用、自動交易**的機械人。智慧型體在人為停止之前一直執行。我們稱這些為持續性任務。上面的回報公式用於描述持續性任務時會出現問題,因為最終時刻\(t=\infty\),並且我們試圖最大化的回報也很容易趨於無窮(例如,假設智慧型體在每個時刻都收到+1的收益)。因此我們引入了折扣因子的概念。根據這種方法,智慧型體嘗試選擇動作,使得它在未來收到的經過折扣係數加權後的收益總和是最大化的。此時,折後回報為:
\[g_t \doteq r_ + \gamma r_ + \gamma^2 r_ + \cdots = \sum_^ \gamma^k r_
\]其中,\(\gamma\)是乙個引數,\(0\le\gamma\le1\),被稱為折扣率。
強化學習基本概念
value based 或q learning 和policy based 或policy gradients 是強化學習中最重要的兩類方法,區別在於 value based是 某個state下所有action的期望價值 q值 之後通過選擇最大q值對應的action執行策略,適合僅有少量離散取值的a...
強化學習基本概念
rl演算法種類 強化學習方法 相關概念 對於機器 先採取動作再接受環境的狀態和獎勵 對於環境 接受機器的動作,做出下乙個的狀態和獎勵 s0當前的狀態,a0當前的動作,r1當前的獎勵 馬爾科夫決策下一刻的狀態只和當前狀態有關,和之前無關 強化學習的目標使rt最大化 1.每一時刻加起來的r e.p.人一...
強化學習的基本概念
mdp markov decission process 馬爾可夫決策流程 代表了強化學習要解決的問題。有幾個構成 1 一組 有限的 狀態s s0,s1,s 2,st st 1.s 0,s 1,s 2,s t,s s0 s1 s2 st st 1 階段性任務的狀態集合記作s s s 2 一組 有限的...