一 DRL系列 DQN DDQN(學習筆記)

2021-09-10 06:34:07 字數 986 閱讀 4022

參考

dqn:

ddqn:

dueling-dqn&ddqn:

dqn:

每次選擇動作,可能隨機選擇也可能選擇當前q值最大的a。

執行a,更新s。

從d中選出最小batch的transition,更新reward。(第一種情況為j+1為終點)

θ是網路引數,求loss關於θ的梯度,更新θ。

每隔c步更新一次目標網路。(軟或硬)

經驗池的功能主要是解決相關性及非靜態分布問題。具體做法是把每個時間步agent與環境互動得到的轉移樣本 (st,at,rt,st+1)(st,at,rt,st+1) 儲存到回放記憶單元,要訓練時就隨機拿出一些(minibatch)來訓練。(其實就是將遊戲的過程打成碎片儲存,訓練時隨機抽取就避免了相關性問題)

γ速率為獎勵的衰變係數,也就是下乙個狀態s』對應的q(s'

, a') 值對當前的q值的影響;r是當前步驟的回報值

double dqn:

傳統的dqn普遍會過高估計action的q值,而且估計誤差會隨action的個數增加而增加。如果高估不是均勻的,則會導致某個次優的action高估的q值超過了最優action的q值,永遠無法找到最優的策略。

在ddqn這裡,不再是直接在目標q網路裡面找各個動作中最大q值,而是先在當前q網路中先找出最大q值對應的動作。

然後利用這個選擇出來的動作a在目標網路裡面去計算目標q值。

DRL學習第一課 結構梳理和理清概念

近期在忙乙個比較重要的專案,做到機械人快速避障,正在努力學習和更新中.深度強化學習 deep reinforcement learning 強化學習是機器學習的乙個分支,相較於機器學習經典的有監督學習,無監督學習問題,強化學習的最大的特點是在互動中學習 learning from interacti...

vim學習系列一

一,檢視vim是否是相容vi的操作模式 set compatible?二,檢視指令碼列表 scriptnames 三,設定或者檢視是否設定了了顯示工作模式 set showmode?set showmode 四,快速移動游標 hjkl h 左,l 右,j 下,k 上 五,刪除 normal模式下 x...

GRACE學習系列(一)

grace 衛星簡介 grace 重力衛星計畫由 nasa 和dlr 聯合開發 t.grace 1998 nasa 的jpl jet propulsion laboratory 噴氣動力實驗室 領導ss l space system lora 蘿拉空間系統公司 和 dss dornier satel...