強化學習 十二 Dueling DQN

2021-09-25 18:38:56 字數 602 閱讀 4140

在強化學習(十一) prioritized replay dqn中,我們討論了對dqn的經驗回放池按權重取樣來優化dqn演算法的方法,本文討論另一種優化方法,dueling dqn。本章內容主要參考了icml 2016的deep rl tutorial和dueling dqn的**(icml 2016)。

在前面講到的ddqn中,我們通過優化目標q值的計算來優化演算法,在prioritized replay dqn中,我們通過優化經驗回放池按權重取樣來優化演算法。而在dueling dqn中,我們嘗試通過優化神經網路的結構來優化演算法。

具體如何優化網路結構呢?dueling dqn考慮將q網路分成兩部分,第一部分是僅僅與狀態ss有關,與具體要採用的動作aa無關,這部分我們叫做價值函式部分,記做v(s,w,α)v(s,w,α),第二部分同時與狀態狀態ss和動作aa有關,這部分叫做優勢函式(advantage function)部分,記為a(s,a,w,β)a(s,a,w,β),那麼最終我們的價值函式可以重新表示為:

q(s,a,w,α,β)=v(s,w,α)+a(s,a,w,β)q(s,a,w,α,β)=v(s,w,α)+a(s,a,w,β)

其中,ww是公共部分的網路引數,而αα是價值函式獨有部分的網路引數,而ββ是優勢函

強化學習 十二 Dueling DQN

在強化學習 十一 prioritized replay dqn中,我們討論了對dqn的經驗回放池按權重取樣來優化dqn演算法的方法,本文討論另一種優化方法,dueling dqn。本章內容主要參考了icml 2016的deep rl tutorial和dueling dqn的 icml 2016 在...

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...