課程收穫
在科科老師的講解下,了解到了強化學習的應用,
了解到了基於價值的方法(saras,q-learning)和基於策略的方法(reinforce演算法),還有應用在連續動作空間的演算法(ddpg)。其中ddpg演算法和reinforce演算法還需要多看看起數學原理。
強化學習個人感悟
強化學習就像是在不斷的與環境進行互動通過獎懲機制然後選取收穫最大的動作作為經驗,當然面對未知鄰域時不可能總憑過去的經驗,這就有了在訓練時隨機選取一些未定的動作去與環境進行互動。
強化學習七天打卡營學習筆記
強化學習七天打卡營學習筆記 一 rl分類 根據環境是否可知可以分為 model based rl model free rl,基於模型的rl的和無模型的rl 按照學習目標可分為value based policy based 按照學習方式可以分為on policy off policy 二 強化學習...
百度7日強化學習總結
基本概念包括 兩部分 agent智慧型體,environment 環境 三要素 state狀態,動作action,reward獎勵。agent學習兩種策略 基於價值的value based 隨機性策略,代表性的有sarsa,q learning,dqn 基於策略的policy based 隨機性策略...
Datawhale深度強化學習打卡
2.1策略迭代 有兩個步驟,第一步包括策略評估和策略優化,第二部進行策略的優化,代表演算法是sarsa 2.2值迭代 一直只進行bellman optimality equation,迭代出optimal value function後只做一次policy update。代表演算法是q learni...