強化學習演算法研究與應用參考資料(不斷更新中)

2021-10-08 11:36:26 字數 343 閱讀 3868

sac是深度強化學習中對於連續動作控制的又一經典algorithm。近期簡單的看了一下sac演算法的思想,先把當前的資料整理一波,便於進一步學習。後續再作進一步更新。

強化學習演算法 sac

openai-soft actor-critic

soft actor-critic **筆記

最前沿:深度解讀soft actor-critic 演算法

知乎文章sac

全新的強化學習演算法:柔性致動/評價(soft actor-critic,sac)

soft actor-critic**閱讀及**實現

最大熵強化學習演算法sac

github配套演算法**庫

強化學習演算法 Q learning

q learning 演算法的步驟 1 給定引數lamda和獎勵矩陣r 2 令q為0 3 for each episode 3.1 隨機選擇初始的狀態s 3.2 未達到目標狀態,則執行以下幾步 1 在當前狀態s的所有可能行為中選取乙個行為a 2 按照q s,a r s,a lamda max,其中s...

強化學習 Q learning演算法

我們以乙個迷宮尋寶的遊戲為例來看什麼是 q learning。在這個遊戲中,agent 從乙個給定的位置開始,即起始狀態。在不穿越迷宮牆壁的前提下,在每個狀態時,都可以選擇上下左右四個方向走一步,或者原地不動,上下左右這四個動作的每乙個都會將 agent 帶到網格的乙個新的單元格,即新的狀態,在迷宮...

強化學習的資料

隨著deepmind和alphago的成功,強化學習 reinforcement learning 日益受到關注。然而,在一些機器學習入門課程中,並沒有專題討論強化學習。希望這個問題能夠成為知乎上對於強化學習嚴肅討論的乙個起點。也非常希望強化學習方面的研究者分享一下這個領域的研究現狀和展望。以下為一...