深入淺出強化學習(3)

2021-09-12 17:39:40 字數 1458 閱讀 2907

策略搜尋:

之前降到的其他方法都是通過最優值函式從而得到最優策略。利用這種方法得到的策略往往是狀態空間向有限集動作空間的對映。(每個狀態都有乙個值函式,執行策略到下乙個狀態的值函式最大,直接argmax_a(值函式))

策略搜尋是將策略進行引數化即πθ(

s)\pi_\left(s\right)

πθ​(s)

,利用線性或非線性(如神經網路)對策略進行表示,尋找最優的引數θ

\theta

θ使得強化學習的目標:累積回報的期望e[∑

t=0h

r(st

)∣πθ

]e\left[\sum_^h}\right]

e[∑t=0

h​r(

st​)

∣πθ​

]最大。

在值函式的方法中,我們迭代計算的是值函式,然後根據值函式對策略進行改進;而在策略搜尋方法中,我們直接對策略進行迭代計算,也就是迭代更新引數值,直到累積回報的期望最大,此時的引數所對應的策略為最優策略。

比較:

優點:適用動作空間很大或者動作為連續集

對策略π

\piπ進行引數化表示。

直接策略搜尋方法經常採用的隨機策略,能夠學習隨機策略。可以將探索直接整合到策略之中。

缺點:策略搜尋的方法容易收斂到區域性最小值。

評估單個策略時並不充分,方差較大。

分類:

策略表示:

隨機策略可以寫為確定性策略加隨機部分,即:

π θ=

μθ+ε

\pi_=\mu_+\varepsilon

πθ​=μθ

​+ε是乙個高斯策略。

確定性部分常見的表示為:

線性策略: μ(s

)=ϕ(

s)tθ

\mu\left(s\right)=\phi\left(s\right)^t\theta

μ(s)=ϕ

(s)t

θ 徑向基策略:μθ(

s)=ω

tϕ(s

),\mu_\left(s\right)=\omega^t\phi\left(s\right),

μθ​(s)

=ωtϕ

(s),

策略梯度:

MySQL學習 3 深入淺出索引(上)

innodb的索引模型 參考資料 寫在後面 環境 mysql5.7.24,for linux glibc2.12 x86 64 簡單來說,索引的出現其實就是為了提高資料查詢 的效率,就像書的目錄一樣。對於資料庫的表而言,索引其實就是它的 目錄 用於提高讀寫效率的資料結構有很多,以下介紹三種常見 也比...

深入淺出sizeof

int佔 位元組,short佔 位元組 1.0 回答下列問題 答案在文章末尾 1.sizeof char 2.sizeof a 3.sizeof a 4.strlen a 如果你答對了全部四道題,那麼你可以不用細看下面關於sizeof的論述。如果你答錯了部分題目,那麼就跟著我來一起 關於sizeof...

深入淺出ShellExecute

ipconfig c log.txt應如何處理?二樓的朋友,開啟拔號網路這樣 shellexecute null,open c windows rundll32.exe shell32.dll,control rundll c windows system telephon.cpl null,sw ...