分為兩種:
概率型策略:從策略π
\piπ中,按照概率π(a
∣s)=
p(at
=a∣s
t=s)
\pi(\mathrm \mid \mathrm)=\mathrm\left(\mathrm_}=\mathrm \mid \mathrm_}=\mathrm\right)
π(a∣s)
=p(a
t=a
∣st
=s)取樣乙個a。
確定型策略:從策略π
\piπ中,選擇乙個最大概率的策略a∗=
arg
maxaπ
(a∣s
)a^=\arg \max _ \pi(a \mid s)
a∗=arg
maxaπ
(a∣s
) 已知π
\piπ的時候能得到多少獎勵(期望平均值)
分為兩種:
狀態價值函式:衡量乙個狀態的價值(其實是乙個狀態採取所有行為後的乙個價值的期望值)
v π(
s)≐e
π[gt
∣st=
s]=e
π[∑k
=0∞γ
krt+
k+1∣
st=s
],
for all s∈
sv_(s) \doteq \mathbb_\left[g_ \mid s_=s\right]=\mathbb_\left[\sum_^ \gamma^ r_ \mid s_=s\right], \text s \in \mathcal
vπ(s)
≐eπ
[gt
∣st
=s]=
eπ[
∑k=0
∞γk
rt+k
+1∣
st=
s],for all s∈
s q-函式:衡量乙個狀態採取乙個動作後的價值(是強化學習的乙個目標,最高的q-函式值對應的a就是最有策略採取的動作)
q π(
s,a)
≐eπ[
gt∣s
t=s,
at=a
]=eπ
[∑k=
0∞γk
rt+k
+1∣s
t=s,
at=a
]q_(s, a) \doteq \mathbb_\left[g_ \mid s_=s, a_=a\right]=\mathbb_\left[\sum_^ \gamma^ r_ \mid s_=s, a_=a\right]
qπ(s,
a)≐e
π[g
t∣s
t=s
,at
=a]=
eπ[
∑k=0
∞γk
rt+k
+1∣
st=
s,at
=a]
**下乙個環境(世界,狀態)
兩部分組成:
1 狀態s採取了乙個策略a,有多少概率到達s′s^
s′。 2 狀態s採取了乙個策略a,能得到多大的獎勵
predict the next state: ps
s′a=
p[st
+1=s
′∣st
=s,a
t=a]
predict the next reward: rs
a=e[
rt+1
∣st=
s,at
=a
]\begin &\text \mathcal_}^=\mathbb\left[s_=s^ \mid s_=s, a_=a\right]\\ &\text \mathcal_^=\mathbb\left[r_ \mid s_=s, a_=a\right] \end
predict the next state: ps
s′a
=p[s
t+1
=s′∣
st=
s,at
=a]
predict the next reward: rs
a=e
[rt+
1∣s
t=s
,at
=a]
強化學習1
這是第一篇強化學習的學習筆記,會覆蓋幾個基本的概念。程式本身,接受環境的訊號,作出行動,影響環境,形成乙個閉環。價值函式,通過value來評估哪一些狀態和動作是好的,選擇那些能夠提高value的動作和狀態。動作,當agent觀察到環境的狀態後,可以作出一些行動去影響環境,比如自動駕駛的汽車看到路面的...
強化學習系列1 強化學習簡介
2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...
強化學習1 什麼是強化學習
強化學習 reinforcement learning,rl 一般也稱作增強學習,和心理學 動物行為的研究等領域有比較久的淵源。心理學中,強化 指生物受到外界環境中的某些刺激後,自覺或者不自覺調整應對策略,達到趨利避害。舉個例子。馬戲團訓練動物時 比方說猴子 訓導員首先會發出某種指令 比方說抬一下手...