ps : 本書的符號標記基本嚴格遵守相關數學領域的慣例,對於變數,大寫字母表示隨機變數,小寫字母表示普通變數;對於確定性函式而言均使用小寫字母表示函式名及引數名;
關於隨機變數的運算通常也用大寫字母表示如期望。
強化學習馬爾科夫鏈決策過程(mdp),這與馬爾科夫鏈不同,也隱馬爾科夫鏈不同,mdp模型增加了中間行為抽象,行為具有改變狀態的能力,是狀態的改變生成機理,
描述了狀態是通過什麼行為而發生改變的,像增加了隱層一樣,而且行為具有主動性,而馬爾科夫鏈只是描述了一種狀態之間的被動切換關係。
符號說明:
隨機變數的取值是由的隨機分布決定的。
1.
以上集合即時隨機過程的表示,其中〖 s〗_t 代表隨機變數
2. 花寫 s 代表隨機變數〖 s〗_t 的取值空間
3. 〖 a〗_t 代表行為隨機變數,其取值空間為花寫的a,通常每個狀態下可以取得行為空間可能並不相同,所以才表示為狀態值的函式;為簡化,將行為空間固定。
4. r_(t+1) 是行為〖 a〗_t 的獎賞,同時也是行為的後果,與此同時智慧型體的狀態s_(t+1) 得到更新,本處行為與其對應的獎賞之間是有時間差的,主要是從時間角度強調,回報是在後期才會產生,與新的狀態的時機更近,簡而言之強調的時間線上的關聯而不是強調行為的所屬,也許這樣更好地強調了過程性吧!
5. 決策和智慧型體一起產生了乙個序列(軌跡),是智慧型體策略和環境互動的乙個例項,也是乙個取樣。
6. a. 有限mdp的 狀態、行為、獎賞集合元素有限;這種情況下,隨機變數〖 s〗_t 和〖 r〗_t 有良好定義的離散概率分布(依賴於先前狀態和行為)。也就是說,在 t 時刻以及給定先前狀態和行為的特定值的情況下,隨機變數〖 s〗_t 和〖 r〗_t 的特定取值s′∈s 和〖 r〗_t∈r,有產生的概率。
b. 等號上面的原點提醒我們這是關於函式 p 的定義而是以前定義的事實。函式 p: s×r×s×a --> [0,1]是四個引數的普通確定性函式。中間的「|」來自條件概率的符號,但是這裡它僅僅提醒我們,為 s 和 a 的每個選擇, p 指定了乙個概率分布,很自然的函式 p 滿足以下性質(概率的基本定義):
7. 上面公式(6),四引數函式p 給出的概率完全刻畫了nite mdp的動力學性質,很容易得到(7)的計算方法。人們可以計算任何想知道關於環境的資訊,如狀態轉移概率。注意符號有點略加濫用,三引數函式p:s×s×a --> [0,1],字母p只是表示這是乙個關於概率的函式與其它的p沒有其它關係,有點像方法過載。也很容易計算狀態--行為對的期望獎賞,如乙個二元函式 r : s × a → r
r : s × a × s → r
在本書中,我們通常使用四引數p函式(6),但是這些其他符號有時也很方便。
ps : 本書的符號標記基本嚴格遵守相關數學領域的慣例,對於變數,大寫字母表示隨機變數,小寫字母表示普通變數;對於確定性函式而言均使用小寫字母表示函式名及引數名;關於隨機變數的運算通常也用大寫字母表示如期望。
強化學習馬爾科夫鏈決策過程(mdp),這與馬爾科夫鏈不同,也隱馬爾科夫鏈不同,mdp模型增加了中間行為抽象,行為具有改變狀態的能力,是狀態的改變生成機理,描述了狀態是通過什麼行為而發生改變的,像增加了隱層一樣,而且行為具有主動性,而馬爾科夫鏈只是描述了一種狀態之間的被動切換關係。
馬爾科夫決策過程的優化又與動態規劃密切相關,但與通常的動態規劃不同,融入了概率和隨機過程相關學科的內容,強化學習主要學習乙個好的策略。
給定的方案條件下,正向計算值函式,此時使用變數代換(小學數學基本思想)具體的資料,計算狀態值函式以及行為值函式。變數代換的好處有二:a. 給定乙個具體的策略,直接代入即可算得相應值函式; b. 方便後面有用函式理論去進行優化計算。 馬爾科夫決策過程
1.能夠檢測到理想狀態 2.可以多次嘗試採取不同動作 3.系統的下乙個狀態只與當前狀態有關,而與之前的狀態無關。在決策過程中還和當前採取的動作有關。s 表示狀態集 a 表示一組動作 p 表示狀態轉移概率。psa表示在當前狀態s下,執行動作a,轉移到其他狀態的概率。r 獎勵還是。表示agent採取某個...
強化學習 馬爾可夫決策過程
參考 推薦 一 馬爾可夫性 agent與environment的互動過程可以表示為乙個序列 馬爾可夫性 下乙個狀態的產生只和上乙個狀態有關,而與更之前的狀態無關。即 p left s s 1,s 2,s t right p left s s t right 這個條件雖然在某些問題上有些理想,但是極大...
馬爾科夫決策程序(MDP)
馬爾科夫決策程序 mdp 馬爾科夫決策程序主要是用來描述乙個隨機過程,將來的狀態僅與現在的狀態有關,而與過去的狀態無關,稱具有這種性質的程序為馬爾科夫程序。馬爾科夫決策程序可以用乙個四元組來表示,其中x是狀態集,a是動作集,p是狀態轉移的概率,u是狀態轉移過程中的收益。1.狀態集 狀態集滿足下一時刻...