異策
動力函式 p(s』,r∣
s,a)
p(s』,r | s, a)
p(s』,r
∣s,a
)方案:解bellman期望方程/最優方程,方程求解 / 線性規劃 / 動態規劃
演算法:因為有模型(動力函式),可以策略迭代(bellman期望方程),也可以價值迭代(bellman最優方程)
幕序列 (s0起始探索,a0,
r0,s
1,a1
,r1,
...,
send
)(s_0, a_0, r_0, s_1, a_1, r_1, ..., s_)
(s0,a
0,r
0,s
1,a
1,r
1,.
..,s
end
)方案:回合更新 / 時序差分 /
演算法:因為沒有模型(動力函式),沒有bellman期望方程,只能價值迭代(bellman最優方程)
柔性策略(ϵ−
soft
)(\epsilon-soft)
(ϵ−sof
t)
強化學習系列 4 DQN
傳統的 形式的強化學習有這樣乙個瓶頸,使用 來儲存每乙個狀態state,和在這個 state 每個行為 action 所擁有的 q 值.如果全用 來儲存它們,計算機記憶體不夠,而且搜尋對應的狀態也是一件很耗時的事.比如下圍棋 所以,我們可以利用神經網路將狀態和動作當成神經網路的輸入,然後經過神經網路...
深度強化學習資料彙總(持續更新)
2.pytorch實現 q learning裡最主要的創造就是乙個qtable,我們通過更新qtable來獲得qvalue最大的值,我們通過最大qvalue來確定下一步執行的action。dqn延續了q learning的想法,使用神經網路來模擬qtable。因為qtable裡儲存的值是有限的,因此...
強化學習系列4 蛇棋的例子
我們有兩個骰子,乙個是常規的骰子 1 6各有1 6的概率出現,我們稱之為正常骰子 另乙個骰子是1 3,每個數字出現兩次 也就是說1 2 3各有1 3的概率出現,我們稱之為重複骰子 我們需要選擇乙個骰子進行投擲。遊戲從1出發,每次投到的多大的數字就往前走多少步,但是每次碰到梯子就需要走到另一頭,直到走...