馬爾科夫決策過程知識詳解1

2021-08-27 21:08:17 字數 1450 閱讀 6018

本節介紹了深入淺出強化學習原理入門一書的馬爾科夫決策過程一節。主要目的是整理其中知識點,以便日後複習所用。(侵刪)

馬爾科夫決策過程是一套可以解決大部分強化學習問題的框架,簡稱mdp。按照順序分別介紹馬爾科夫性,馬爾科夫過程,以及馬爾科夫決策過程。

一 馬爾科夫性

馬爾科夫性指的是系統的下乙個狀態s(t+1)僅與當前狀態s(t)有關,與以前的狀態無關。公式如下:

p[s(t+1)|s(t)] = p[s(t+1)|s(1),s(2),…,s(t)]

二 馬爾科夫過程

隨機過程就是隨機變數序列,若隨機變數序列中的每個狀態都是馬爾科夫的,則稱其未馬爾科夫隨機過程。

馬爾科夫過程是乙個二元組(s,p),其中s是有限狀態集合,p是狀態轉移概率。狀態轉移概率矩陣是:

如果s有5個狀態s1,s2,s3,s4,s5,則形如

s1-s2-s5

s1-s2-s4-s5

上述狀態序列未馬爾科夫鏈。

馬爾可夫過程中不存在動作和獎勵,將動作和回報考慮在內的馬爾可夫過程為馬爾科夫決策過程。

三 馬爾可夫決策過程

馬爾科夫決策過程由元組(s,a,p,r,gamma)描述,其中,

s為有限狀態集

a為有限動作集

p為狀態轉移概率

r為回報函式

gamma為計算累計回報的折扣因子。

馬爾可夫決策過程示例圖:

上圖中,學生有5個狀態s=,動作有a = ,即刻回報為r。

強化學習的目標是給定乙個馬爾科夫決策過程,尋找最優策略。所謂策略是指狀態到動作的對映,策略用pi表示,指的是給定狀態s,動作集上的乙個分布,

pi(a|s) = p[a(t)=a|s(t)=s]

上式含義為策略pi在每個狀態s中某個指定動作的概率。如pi(玩|s)=0.8,指的是在s狀態,學生玩的概率是0.8.

每個學生都有自己的策略,強化學習是找到最優策略,使得總回報最大。

累計回報:g(t) = r(t+1)+gamma*r(t+2)+…

當給定策略pi時,從狀態s1出發,可能的狀態序列為:

s1-s2-s3-s4-s5

s1-s2-s3-s5

此時,g1有多個可能的值,為隨機變數。可定義累積回報g1的期望來衡量s1的價值 ,即為狀態值函式。

(1)狀態值函式

智慧型體採用策略pi時,累積回報服從乙個分布,將其在s處的期望

定義為狀態值函式:

vpi(s) = epi[g(t)|s(t)=s]

狀態行為值函式

qpi(s,a) = epi[g(t)|s(t)=s,a(t)=a]

馬爾科夫決策過程

1.能夠檢測到理想狀態 2.可以多次嘗試採取不同動作 3.系統的下乙個狀態只與當前狀態有關,而與之前的狀態無關。在決策過程中還和當前採取的動作有關。s 表示狀態集 a 表示一組動作 p 表示狀態轉移概率。psa表示在當前狀態s下,執行動作a,轉移到其他狀態的概率。r 獎勵還是。表示agent採取某個...

馬爾科夫過程,馬爾科夫獎勵過程和馬爾科夫決策過程

馬爾科夫決策過程是強化學習中的乙個基本框架,用來表示agent與環境的互動過程 agent觀測得到環境的當前狀態之後,採取動作,環境進入下乙個狀態,agent又得到下乙個環境狀態的資訊,形成乙個迴圈迴路。在理解馬爾科夫決策過程之前,首先要理解馬爾科夫 馬爾科夫獎勵過程。1.馬爾科夫過程 滿足馬爾科夫...

簡述馬爾科夫決策過程(上)

在人工智慧中,大家可能知道兩種技術,第一是機器演算法,第二是深度學習。而在深度學習中有強化學習和突破學習這兩種技術。這兩種技術給深度學習帶來了很大的幫助。而強化學習中有乙個技術,那就是馬爾科夫決策過程,那麼什麼是馬爾科夫決策過程呢?下面我們就給大家介紹一下這個內容。初聽馬爾科夫決策過程,相信大家也是...