強化學習1 策略,價值函式,模型

2021-10-11 08:07:20 字數 2183 閱讀 8681

​ 分為兩種:

​ 概率型策略:從策略π

\piπ中,按照概率π(a

∣s)=

p(at

=a∣s

t=s)

\pi(\mathrm \mid \mathrm)=\mathrm\left(\mathrm_}=\mathrm \mid \mathrm_}=\mathrm\right)

π(a∣s)

=p(a

t​=a

∣st​

=s)取樣乙個a。

​ 確定型策略:從策略π

\piπ中,選擇乙個最大概率的策略a∗=

arg⁡

max⁡aπ

(a∣s

)a^=\arg \max _ \pi(a \mid s)

a∗=arg

maxa​π

(a∣s

)​ 已知π

\piπ的時候能得到多少獎勵(期望平均值)

​ 分為兩種:

​ 狀態價值函式:衡量乙個狀態的價值(其實是乙個狀態採取所有行為後的乙個價值的期望值)

v π(

s)≐e

π[gt

∣st=

s]=e

π[∑k

=0∞γ

krt+

k+1∣

st=s

],

for all s∈

sv_(s) \doteq \mathbb_\left[g_ \mid s_=s\right]=\mathbb_\left[\sum_^ \gamma^ r_ \mid s_=s\right], \text s \in \mathcal

vπ​(s)

≐eπ​

[gt​

∣st​

=s]=

eπ​[

∑k=0

∞​γk

rt+k

+1​∣

st​=

s],for all s∈

s​ q-函式:衡量乙個狀態採取乙個動作後的價值(是強化學習的乙個目標,最高的q-函式值對應的a就是最有策略採取的動作)

q π(

s,a)

≐eπ[

gt∣s

t=s,

at=a

]=eπ

[∑k=

0∞γk

rt+k

+1∣s

t=s,

at=a

]q_(s, a) \doteq \mathbb_\left[g_ \mid s_=s, a_=a\right]=\mathbb_\left[\sum_^ \gamma^ r_ \mid s_=s, a_=a\right]

qπ​(s,

a)≐e

π​[g

t​∣s

t​=s

,at​

=a]=

eπ​[

∑k=0

∞​γk

rt+k

+1​∣

st​=

s,at

​=a]

​ **下乙個環境(世界,狀態)

​ 兩部分組成:

​ 1 狀態s採取了乙個策略a,有多少概率到達s′s^

s′。​ 2 狀態s採取了乙個策略a,能得到多大的獎勵

predict the next state: ps

s′a=

p[st

+1=s

′∣st

=s,a

t=a]

predict the next reward: rs

a=e[

rt+1

∣st=

s,at

=a

]\begin &\text \mathcal_}^=\mathbb\left[s_=s^ \mid s_=s, a_=a\right]\\ &\text \mathcal_^=\mathbb\left[r_ \mid s_=s, a_=a\right] \end

​predict the next state: ps

s′a​

=p[s

t+1​

=s′∣

st​=

s,at

​=a]

predict the next reward: rs

a​=e

[rt+

1​∣s

t​=s

,at​

=a]​

強化學習1

這是第一篇強化學習的學習筆記,會覆蓋幾個基本的概念。程式本身,接受環境的訊號,作出行動,影響環境,形成乙個閉環。價值函式,通過value來評估哪一些狀態和動作是好的,選擇那些能夠提高value的動作和狀態。動作,當agent觀察到環境的狀態後,可以作出一些行動去影響環境,比如自動駕駛的汽車看到路面的...

強化學習系列1 強化學習簡介

2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...

強化學習1 什麼是強化學習

強化學習 reinforcement learning,rl 一般也稱作增強學習,和心理學 動物行為的研究等領域有比較久的淵源。心理學中,強化 指生物受到外界環境中的某些刺激後,自覺或者不自覺調整應對策略,達到趨利避害。舉個例子。馬戲團訓練動物時 比方說猴子 訓導員首先會發出某種指令 比方說抬一下手...