drl的基本模型:
drl演算法大框架:
大腦的執行機構-actor: 輸入狀態s,輸出動作a(policy gradient演算法)
大腦的評判機構-critrc:根據回饋r(外界給的)進行調整。(q learning)
人類也是在本能和價值觀影響作用下進行行為,並且價值受經驗的影響不斷改變。
在actor-critic的框架下:有dqn、a3c、unreal等演算法提出。
第乙個提出的drl演算法,輸出動作有限情況可用。僅有critic模組。critic模組重新表示為value network。
演算法:基於價值網路,我們可以遍歷某個狀態s下各種動作的價值,然後選擇價值最大的乙個動作輸出。
重點:value network怎麼設計,每個動作的價值如何計算。怎麼更新每個動作的價值。
針對更新問題:我們要有乙個目標q(價值)(根據bellman公式迭代),和現在的q進行平方差最小化來更新引數。
a3c演算法:
1)在價值網路的基礎上,價值網路給出動作的好壞評價,乘以動作網路中整體動作概率分布,作為動作網路的損失函式。
2)actor網路的輸出有兩種:某一確定動作和所有動作的分布概率。a3c採用動作概率的方式。
3)a3c在動作價值q的基礎上,使用優勢a(advantage)作為動作的評價。優勢a是指動作a在狀態s下相對其他動作的優勢。假設狀態s的價值是v,那麼a=q-v。
具體計算上:a3c演算法調整了critic評判模組的價值網路,讓其輸出v值,然後使用多步的歷史資訊來計算動作的q值
4)還使用非同步訓練的思想
區分:我們只有在使用policy gradient時完全不使用q,僅使用reward真實值來評價,才叫做policy gradient,要不然policy gradient就需要有q網路或者v網路,就是actor critic。
強化學習 強化學習基礎
為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...
強化學習演算法 Q learning
q learning 演算法的步驟 1 給定引數lamda和獎勵矩陣r 2 令q為0 3 for each episode 3.1 隨機選擇初始的狀態s 3.2 未達到目標狀態,則執行以下幾步 1 在當前狀態s的所有可能行為中選取乙個行為a 2 按照q s,a r s,a lamda max,其中s...
強化學習 Q learning演算法
我們以乙個迷宮尋寶的遊戲為例來看什麼是 q learning。在這個遊戲中,agent 從乙個給定的位置開始,即起始狀態。在不穿越迷宮牆壁的前提下,在每個狀態時,都可以選擇上下左右四個方向走一步,或者原地不動,上下左右這四個動作的每乙個都會將 agent 帶到網格的乙個新的單元格,即新的狀態,在迷宮...