策略搜尋:
之前降到的其他方法都是通過最優值函式從而得到最優策略。利用這種方法得到的策略往往是狀態空間向有限集動作空間的對映。(每個狀態都有乙個值函式,執行策略到下乙個狀態的值函式最大,直接argmax_a(值函式))
策略搜尋是將策略進行引數化即πθ(
s)\pi_\left(s\right)
πθ(s)
,利用線性或非線性(如神經網路)對策略進行表示,尋找最優的引數θ
\theta
θ使得強化學習的目標:累積回報的期望e[∑
t=0h
r(st
)∣πθ
]e\left[\sum_^h}\right]
e[∑t=0
hr(
st)
∣πθ
]最大。
在值函式的方法中,我們迭代計算的是值函式,然後根據值函式對策略進行改進;而在策略搜尋方法中,我們直接對策略進行迭代計算,也就是迭代更新引數值,直到累積回報的期望最大,此時的引數所對應的策略為最優策略。
比較:
優點:適用動作空間很大或者動作為連續集
對策略π
\piπ進行引數化表示。
直接策略搜尋方法經常採用的隨機策略,能夠學習隨機策略。可以將探索直接整合到策略之中。
缺點:策略搜尋的方法容易收斂到區域性最小值。
評估單個策略時並不充分,方差較大。
分類:
策略表示:
隨機策略可以寫為確定性策略加隨機部分,即:
π θ=
μθ+ε
\pi_=\mu_+\varepsilon
πθ=μθ
+ε是乙個高斯策略。
確定性部分常見的表示為:
線性策略: μ(s
)=ϕ(
s)tθ
\mu\left(s\right)=\phi\left(s\right)^t\theta
μ(s)=ϕ
(s)t
θ 徑向基策略:μθ(
s)=ω
tϕ(s
),\mu_\left(s\right)=\omega^t\phi\left(s\right),
μθ(s)
=ωtϕ
(s),
策略梯度:
MySQL學習 3 深入淺出索引(上)
innodb的索引模型 參考資料 寫在後面 環境 mysql5.7.24,for linux glibc2.12 x86 64 簡單來說,索引的出現其實就是為了提高資料查詢 的效率,就像書的目錄一樣。對於資料庫的表而言,索引其實就是它的 目錄 用於提高讀寫效率的資料結構有很多,以下介紹三種常見 也比...
深入淺出sizeof
int佔 位元組,short佔 位元組 1.0 回答下列問題 答案在文章末尾 1.sizeof char 2.sizeof a 3.sizeof a 4.strlen a 如果你答對了全部四道題,那麼你可以不用細看下面關於sizeof的論述。如果你答錯了部分題目,那麼就跟著我來一起 關於sizeof...
深入淺出ShellExecute
ipconfig c log.txt應如何處理?二樓的朋友,開啟拔號網路這樣 shellexecute null,open c windows rundll32.exe shell32.dll,control rundll c windows system telephon.cpl null,sw ...