強化學習 二 DQN深度強化學習網路

2021-10-08 19:58:05 字數 641 閱讀 6919

dqn,deep q network, 是融合了q-learning和神經網路的方法

使用q-table這樣乙個**來儲存state和action的q值,在複雜的情境下,狀態可以多到比天上的星星還要多,如果全用**來儲存,計算機是儲存不下的。並且在如此巨大的**中搜尋對應狀態也是一種很耗時的事情

不過神經網路對這類事情很在行,我們將狀態和動作當作神經網路的輸入值,經過神經網路分析後,得到動作的q值,這樣我們就不需要用**記錄q值了

我們也可以只輸入狀態值,輸出所有的動作值,然後按照q-learning的原則,直接選擇最大值的動作作為下乙個動作

那在強化學習中,神經網路是如何被訓練的呢

記憶庫②fixed q-targets

深度強化學習 (三)DQN

強化學習是乙個馬爾科夫決策過程,它的目標是追求累計回報最大化max,值函式v s 是對狀態s能獲得的累計回報的估計,也就是v s e gt st s 根據貝爾曼方程v st 與v st 1 的關係為 v st e rt 1 r v st 1 st s 引入動作後有動作 值函式 q st,at q s...

深度強化學習 二

強化學習和深度學習有什麼關係?深度學習參與的強化學習與傳統的強化學習有何不同?為什麼要引入深度學習?強化學習的過程中,處理的是狀態,實際上,很多時候狀態是連續的 複雜的 高階的。因此,求助於深度學習。深度學習善於處理高維資料,並快速地從中抽取模式。比如在影象處理中,用畫素的集合體來表示完整的影象。這...

強化學習 DQN 演算法改進

dueling dqn 是一種基於 dqn 的改進演算法。主要突破點 利用模型結構將值函式表示成更加細緻的形式,這使得模型能夠擁有更好的表現。下面給出公式,並定義乙個新的變數 q s t,a t v s t a s t,a t 也就是說,基於狀態和行動的值函式 q 可以分解成基於狀態的值函式 v 和...