強化學習是乙個馬爾科夫決策過程, 它的目標是追求累計回報最大化max, 值函式v(s)是對狀態s能獲得的累計回報的估計, 也就是v(s)=e(gt | st = s), 根據貝爾曼方程v(st)與v(st+1)的關係為: v(st) = e( rt+1 + r*v(st+1) | st = s)
引入動作後有動作-值函式 q(st, at), q(st, at)=e(gt | st = s ,at = a),根據貝爾曼方程q(st, at)與q(st+1, at+1)的關係為: q(st, at) = e( rt+1 + r*q(st+1, at+1) | st = s,at = a)
用 q-target網路輸出近似代替一回合中最後一步的基於貝爾曼期望方程的q(st+1, at+1),qtarget(st, at) = rt+1 + r*q(st+1, at+1),可以從後往前迭代算的每個s的qtarget(或者每一步都用q-taeget網路計算),每乙個s都可以用q-eval網路算出qeval
乙個回合中每個s都有(qtarget - qeval)^2,在這個回合中求其均方差e((qtarget - qeval)^2)作為梯度,優化網路引數, 最後可以得到貝爾曼最優方程 , 即每個s的最優動作-值函式, 從而可以得到最優策略.
強化學習 二 DQN深度強化學習網路
dqn,deep q network,是融合了q learning和神經網路的方法 使用q table這樣乙個 來儲存state和action的q值,在複雜的情境下,狀態可以多到比天上的星星還要多,如果全用 來儲存,計算機是儲存不下的。並且在如此巨大的 中搜尋對應狀態也是一種很耗時的事情 不過神經網...
強化學習 DQN 演算法改進
dueling dqn 是一種基於 dqn 的改進演算法。主要突破點 利用模型結構將值函式表示成更加細緻的形式,這使得模型能夠擁有更好的表現。下面給出公式,並定義乙個新的變數 q s t,a t v s t a s t,a t 也就是說,基於狀態和行動的值函式 q 可以分解成基於狀態的值函式 v 和...
強化學習系列 4 DQN
傳統的 形式的強化學習有這樣乙個瓶頸,使用 來儲存每乙個狀態state,和在這個 state 每個行為 action 所擁有的 q 值.如果全用 來儲存它們,計算機記憶體不夠,而且搜尋對應的狀態也是一件很耗時的事.比如下圍棋 所以,我們可以利用神經網路將狀態和動作當成神經網路的輸入,然後經過神經網路...