state-action-reward-state』-action』, 簡稱sarsa,是為了建立和優化狀態-動作(state-action)的價值q**所建立的方法。首先初始化q**,根據當前的狀態和動作與環境進行互動後,得到獎勵reward以及下一步的狀態和動作後,對q**進行更新;並不斷重複這個過程。
q**更新公式為:
另外,為了保證每一步的探索性,sarsa在執行下一步時採用e-greedy演算法,即根據一定的概率估計來選擇下一步的action。sarsa的這種更新q**方式稱為「on-policy」方式,即先做出下一步的動作再回頭開更新q值。
與之對應的是「off-policy」方式,即在更新q**時,無需知道下一步的動作,而是假設下一步的動作可以取到最大的q值。基於這種「off-policy」的方法稱為q-learning演算法,其更新q**的數學表示式為:
deep q-learning,簡稱dqn演算法是為了解決傳統的**型方法在大規模強化學習任務時遇到的執行效率低,儲存量低等問題而提出的演算法,它的基本思想是採用神經網路的方式來近似代替q**。dqn本質上還是q-learning演算法,同樣為了更好的與環境進行互動,採用e-greedy演算法。
dqn的創新在於:
經驗回放(experience replay):使用經驗池存在多條s,a,r,s』資訊,並隨機選擇一批資料作為輸入到神經網路進行訓練。經驗回放保證了樣本的關聯性和利用效率問題,即對於某一條資訊它有多次機會可以進入網路進行訓練。
q目標固定(fixed-q-target):複製乙個和原來一樣的q網路,用來訓練目標q。q目標固定主要為了解決訓練過程的穩定性問題。
策略梯度方法是指在優化神經網路的過程中,對於策略π(s,a)的期望回報,所有的軌跡獲得的回報r與對應的軌跡發生概率p的加權和,當n足夠大時,可通過取樣n個episode求平均的方式近似表達,即:
deep deterministic policy gradient, 簡稱ddpg演算法,是結合dqn演算法與actor-critic提出的求解針對連續動作空間上的學習任務的演算法。
ddpg演算法實現的流程:
強化學習演算法分類總結
知識總結 a2c,a3c,ppo1,ppo2 策略函式的優化 a s q learing 動作值函式的優化 q s,a ddpg,sac 結合策略函式和動作值函式 a s q s,a mpc 模型 控制 純動態規劃 mbmf 在一些深度強化學習的標準基準任務上,基於學習到的環境進行模型 控制 exi...
強化學習 強化學習基礎
為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...
強化學習框架總結
設定,重新經歷 強化學習 rl 框架包含學習與其環境互動的智慧型體。在每個時間步,智慧型體都收到環境的狀態 環境向智慧型體呈現一種情況 智慧型體必須選擇相應的響應動作。乙個時間步後,智慧型體獲得乙個獎勵 環境表示智慧型體是否對該狀態做出了正確的響應 和新的狀態。所有智慧型體的目標都是最大化預期累積獎...