強化學習總結(3) Dueling DQN

2021-09-24 03:59:41 字數 733 閱讀 8089

dueling-dqn是對傳統dqn的一種改進演算法,它的核心思路是優化神經網路的結構。在傳統dqn演算法中,根據神經網路的輸出確定每個動作q值,然後選出最優的動作,其神經網路的大概模型如下圖。

在dueling-dqn中,對網路的輸出層(圖2-5中的紅色部分)進行了改進,將其分為了兩個部分。如下圖所示。

如上圖所示,在一般的dqn網路模型中,輸入層接三個卷積層後,接兩個全連線層,輸出為每個動作的q值。而(第二個模型)競爭網路(dueling net)將卷積層提取的抽象特徵先分流到兩個支路中。一路代表狀態值函式 v(s),表示靜態的狀態環境本身具有的價值;另一路代表依賴狀態的動作優勢函式 a(a) (advantage function),表示選擇某個action額外帶來的價值。最後這兩路再聚合再一起得到每個動作的q值。這樣的話可以更好的適應於不同的環境。

這樣可以得到以下的表示式。第一部分僅與狀態s有關,與具體要採用的動作a無關,即價值函式部分,第二部分同時與狀態s和動作a有關,即優勢函式部分。

其中,

以上就是我目前對dueling-dqn的簡單總結。

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習框架總結

設定,重新經歷 強化學習 rl 框架包含學習與其環境互動的智慧型體。在每個時間步,智慧型體都收到環境的狀態 環境向智慧型體呈現一種情況 智慧型體必須選擇相應的響應動作。乙個時間步後,智慧型體獲得乙個獎勵 環境表示智慧型體是否對該狀態做出了正確的響應 和新的狀態。所有智慧型體的目標都是最大化預期累積獎...

強化學習知識總結

參考文章 研一接觸了強化學習,然後對其就產生了很大的興趣。雖然有在莫煩python上學習,也自己做過很簡單的專案,但是之前對rl的學習比較混亂並不系統。正好看到這篇文章,感覺對自己有很大的幫助,就根據作者列出的知識點進行擴充套件學習。model free就是不去學習和理解環境,環境給出什麼資訊就是什...