強化學習系列 6 Actor Critic

2021-07-31 17:17:38 字數 927 閱讀 8698

<6>actor critic

actor critic (演員評判家), 它合併了 以值為基礎 (比如 q learning) 和 以動作概率為基礎 (比如 policy gradients) 兩類強化學習演算法.

actor-critic :

actor 的前生是 policy gradients , 可以在連續動作中選取合適的動作, 而 q-learning 做這件事會癱瘓. 那為什麼不直接用 policy gradients 呢? 

critic 的前生是以值為基礎的學習法(q-learning 、其他的演算法) , 能進行單步更新, 而傳統的 policy gradients 則是回合更新, 這降低了學習效率.

actor 和 critic, 他們都能用不同的神經網路來代替 . 在 policy gradients 中, 現實中的獎懲會左右 actor 的更新情況. policy gradients 也是靠著這個來獲取適宜的更新. 那麼何時會有獎懲這種資訊能不能被學習呢? 這看起來不就是 以值為基礎的強化學習方法做過的事嗎. 那我們就拿乙個 critic 去學習這些獎懲機制, 學習完了以後. 由 actor 來指手畫腳, 由 critic 來告訴 actor 你哪些指得好, 哪些指得差, critic 通過學習環境和獎勵之間的關係, 能看到現在所處狀態的潛在獎勵, 所以用它來指點 actor 便能使 actor 每一步都在更新, 如果使用單純的 policy gradients, actor 只能等到回合結束才能開始更新

但是事物終有它壞的一面, actor-critic 涉及到了兩個神經網路, 而且每次都是在連續狀態中更新引數, 每次引數更新前後都存在相關性, 導致神經網路只能片面的看待問題, 甚至導致神經網路學不到東西. google deepmind 為了解決這個問題, 修改了 actor critic 的演算法。

那我們該怎麼解決呢?這就又出現了公升級版的ddpg!!!

強化學習系列1 強化學習簡介

2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...

強化學習筆記6

基本概念 離散動作與連續動作是相對的概念,乙個是可數的,乙個是不可數的。在 cartpole 環境中,可以有向左推小車 向右推小車兩個動作。在 frozen lake 環境中,小烏龜可以有上下左右四個動作。在 atari 的 pong 遊戲中,遊戲有 6 個按鍵的動作可以輸出。但在實際情況中,經常會...

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...