前面介紹了actor的策略,接下來介紹critic。
critic就是乙個神經網路,以狀態s為輸入,以期望的reward為輸出。
在前面介紹actor時,我們定義的用來更新θ的
▽ rˉ
θ=∑τ
r(τ)
▽pθ(
τ)
\********down\bar r_\theta=\sum_\tau r(\tau)\********down p_\theta(\tau)
▽rˉθ=
τ∑r
(τ)▽
pθ(
τ)這其中r(τ
)r(\tau)
r(τ)
是machine與環境互動所獲得的實際reward,這就導致具有很大的不確定性。因為machine採取什麼樣的動作是一種概率性的行為,而同乙個動作,環境給予什麼樣的reward也是具有隨機性的,這樣將會導致machine的學習效率比較低下,就像沒頭蒼蠅亂撞,可能學習很久都找不到正確的方向。所以我們要給machine乙個正確的方向,即使用它的期望值代替實際的reward,期望值是可以被估算、計算的,這樣就有利於我們去設計特定的函式來估算、計算期望的reward,從而引導我們的machine去做出我們想要的action。
critic是只計算期望的reward,並不會根據這個reward選擇action,而q-learning則會根據估算出來的reward選擇最大的那個reward對應的action。
value-based是根據計算出來的期望reward,選擇最大的期望reward所對應的action。典型代表q-learning。
policy-based是將計算出來的期望reward當作選擇action的概率,期望的reward越大,對應的action被選中的概率也就越大,但不一定就會被選中,只是概率。典型代表policy gradient。
非常簡單,直接使用乙個神經網路,以狀態s為輸入,value為輸出即可。
使用critic輸出的value代替r(τ
)r(\tau)
r(τ)
,具體公式如下圖,這就是a2c策略。
強化學習筆記之gradient ascent(二)
一般而言,actor的策略就是gradient ascent actor和environment reward的關係如下 在乙個回合episode中,這些state和action組成一條軌跡 trajectory textbf space tau lbrace s 1,a 1,s 2,a 2,dot...
強化學習筆記
1.q learning與sarsa區別 lambda 就是乙個衰變值,他可以讓你知道離獎勵越遠的步可能並不是讓你最快拿到獎勵的步,所以我們想象我們站在寶藏的位置,回頭看看我們走過的尋寶之路,離寶藏越近的腳印越看得清,遠處的腳印太渺小,我們都很難看清,那我們就索性記下離寶藏越近的腳印越重要,越需要被...
強化學習筆記
policy iteration 隨機選擇乙個策略,交替做兩件事 策略評價,和策略改進,則可以得到最優的策略。其中,策略評價即policy evalution,為當前策略計算值函式v 策略改進即policy improvement,即給定乙個值函式,得到乙個改進的策略。value iteration...