deep q-learning,能發現bug,可以把球擊到上面,讓他可以自己玩;
alphago 文章在2016.2017的nature
alphago zero 擴充套件到了其他遊戲
alphago start 深度強化學習玩星際爭霸
今天介紹如何利用深度強化學習用到機械人上
強化學習解決連續決策問題,目標得到最優策略
馬爾科夫決策過程概率圖,未來只與當下有關
回報有遞迴的形式,價值函式也有這種遞迴關係(這裡用到的是隨機策略),即貝爾曼方程。
actor-critic是基於策略和基於價值的結合
幾種不同型別的價值函式的估計:
dqn:
首先設定目標損失函式,y類似監督學習的標籤,是td target,基礎是q的貝爾曼方程。(類似q-learning中的更新環境)
損失函式求梯度
完整演算法:
每次都是把資料儲存在d中,然後用這個batch的資料訓練。
從長遠利益出發
無法用於連續行為空間,比如機械人運動。因此另一種方法,策略梯度法:
蒙特卡洛策略梯度
q actor-critic比上乙個收斂更快,方差更小。
advantage actor-critic,又加了乙個神經網路。更快,方差更小。
在機械人領域的研究:
深度強化學習的主要問題:
1、需要很多樣本才能收斂;
2、成功案例多來自於**環境,樣本手機慢
3、顯示中訓練不能加速
解決方案:
首先在**中訓練,再應用
或者模仿學習,人為示範,學習環境動態模型
1、**-現實轉換
**:**中隨機花生成情況;
使用現實取樣資料更新**分布
採用ppo演算法
2、模仿學習
**:先捕捉動物運動,然後放到**環境。
需要模型轉換,然後模仿,然後適應
ik演算法,指定**模型關鍵點,再用ik,計算姿態,追蹤關鍵點。
rl也是用ppo reward來自估計與真實的誤差
動態引數
3、基於模型的強化學習
*****
用神經網路逼近p,結果是可以較小時間和資料
重點是實現,idea不是那麼重要!
深度強化學習在自動駕駛領域應用
自動駕駛**器
carla
*****
深度強化學習控制移動機械人
860122112 qq.com 使用深度強化學習控制移動機械人在複雜環境中避障 收集物品到指定點。所用到的演算法包括dqn deuling ddqn a3c ddpg naf。1.實驗環境 ros gazebo 2.移動機械人模型 安裝有kinect的pioneer3移動機械人 機械人從kinec...
機器學習之深度強化學習
機器學習最酷的分支應該算是深度學習 deeplearning 和強化學習 reinforcement learning 深度學習是一種機器學習中建模資料的隱含分布的多層表達的演算法。換句話來說,深度學習演算法自動提取分類中所需要的低層次或者高層次特徵。因此深度學習能夠更好的表示資料的特徵,同時由於模...
強化學習 2 機械人找金幣例子
本文介紹乙個簡單的案例。目標如下 我們的機械人在上面的地圖上行走,目的是要找到寶藏,如果進入骷髏頭,遊戲就失敗。我們對地圖上的小方格進行編號 1 8 簡單表示如下 self.states 1,2,3,4,5,6,7,8 狀態空間同時定義終止狀態 self.terminate states dict ...