參考:
推薦)一、馬爾可夫性
agent與environment的互動過程可以表示為乙個序列:
馬爾可夫性:下乙個狀態的產生只和上乙個狀態有關,而與更之前的狀態無關。即$p\left( s_|s_1,s_2,...,s_t \right) =p\left( s_|s_t \right)$。這個條件雖然在某些問題上有些理想,
但是極大地簡化了問題的複雜性。
二、關鍵概念
1、狀態集:s,st表示t時刻的狀態
2、動作集:a,at表示t時刻的動作
3、策略:$\pi$,$\pi\left(a|s\right)=p\left(a_t=a|s_t=s\right)$,針對某個狀態既可以採取確定性的策略也可以採取隨機策略
4、獎勵:r,rt表示在st-1時採取動作at-1後獲得的獎勵
5、長期回報:$g_t$,$g_t=r_+\gamma r_+\gamma ^2r_+...$,表示st之後所有獎勵的有衰減之和,其中$\gamma$表示衰減因子,$\gamma \in [0,1]$
6、狀態價值函式:$v_\pi \left(s\right)=e_\pi \left(g_t|s_t=s\right)$
7、狀態-動作價值函式:$q_\pi \left(s,a\right)=e_\pi \left(g_t|s_t=s,a_t=a\right)$
8、貝爾曼方程:
$\begin
v_\left( s \right) &=e_\left( g_t|s_t=s \right)\\
&=e_\left( r_+\gamma r_+\gamma ^2r_+...|s_t=s \right)\\
&=e_\left( r_+\gamma \left( r_+\gamma r_+... \right)|s_t=s \right)\\
&=e_\left( r_+\gamma g_ |s_t=s \right)\\
&=e_\left( r_+\gamma v_\left( s_ \right)|s_t=s \right)\\
\end
$根據下圖來推導一些重要的公式:
9、最優價值函式
強化學習希望能夠找到最好的策略$\pi_*$,使得$v_\left( s \right)$不會比其他任何策略$\pi$的$v_\left( s \right)$差,即$v_*(s)=\undersetv_\left( s \right)$,其中$s\in s$
同理,$q_*(s,a)=\undersetq_\left( s,a \right)$,其中$s\in s$,$a\in a$
10、最優策略
$\pi _*\left( a|s \right) =\begin
1\,\,\,if\,\,\undersetq_*\left( s,a \right)\\
0\,\,\,else\\
\end
$此時:
(1)$v_*\left( s \right)=\undersetq_*\left( s,a \right)$
(2)$v_*\left( s \right)=\underset\left( \sum_ \right)$
(3)$q_*\left( s,a \right)=\sum_$
(4)$q_*\left( s,a \right)=\sum_q_*(s',a') \right)}$
《強化學習》馬爾可夫決策過程MDP
狀態自動機 mdp和nfa唯一相似的地方就是它們都有狀態轉移,拋掉這一點兩者就八竿子打不著了。我們用貝爾曼期望方程求解在某個給定策略 和環境env下的價值函式 具體解法是 下面是對於v s 的解法 從而對於每乙個特定的 都能得到其對應的價值函式。所以我們可以有一組的 但是我們解決問題的目標是拿到最優...
強化學習學習筆記 馬爾可夫決策過程(一)
雖然不是第一次學強化學習的內容,但這確實是我第一次在網上開始寫學習筆記。寫學習筆記的原因有兩個 首先是因為,自己學了好久都學不明白,現在開始下決心把這套東西學透。學習筆記有助於我整理學習的思路,相當於再自己複習一遍,看能否用自己的話把所學的東西說明白。也借用各位的評價來審視自己的理解是否有誤。希望用...
強化學習 MDP 馬爾可夫決策過程 演算法原理
前面的強化學習基礎知識介紹了強化學習中的一些基本元素和整體概念。今天講解強化學習裡面最最基礎的mdp 馬爾可夫決策過程 mdp是當前強化學習理論推導的基石,通過這套框架,強化學習的互動流程可以很好地以概率論的形式表示出來,解決強化學習問題的關鍵定理也可以依此表示出來。mdp 馬爾可夫決策過程 包含以...