用unity玩轉深度強化學習(一)

2021-09-20 21:42:54 字數 710 閱讀 1303

首先宣告,我是個標題黨………我現在的渣渣實力還玩不轉深度強化學習,但是也想不到更好的名字了。

挖這個系列的坑可能會更新很慢,畢竟用unity引擎自己搭建環境,訓練,還要出不錯的結果,這個過程很多坑。剛學完深度強化學習,然後也不想玩gym裡被玩爛了的遊戲環境,曾經我夢想做乙個遊戲開發者,對unity還是比較熟悉的,因此,就有了這個系列,用unity搭建自己想訓練的環境,訓練自己的ai。

首先,如果大家有對unity不熟悉的,unity是乙個專業的遊戲引擎,它發布的有ml-agents機器學習工具包,位址是: 。雖然叫機器學習工具包,但是基本上就是強化學習裡ppo(近端策略優化演算法),因為遊戲和強化學習關係比較大嘛,遊戲中,很多動作都是連續值,dqn類的強化學習方法hold不住,所以預設的就是ppo演算法,當然你可以自己擴充套件別的演算法。ppo演算法你自己想實現倒也不是很困難,但是畢竟官方的穩定些吧(大牛無視),而且ml-agents把諸如利用遊戲引擎加速訓練,多**並行訓練這些都做好了,訓練起來簡直快的飛起。

unity環境中:

深度強化學習

這是寫給自己看的,大佬請忽略 深度學習和其他機器學習演算法最大的不同在於如何找到特徵,而特徵的抽取過程就是乙個抽象的全過程。以往機器學習演算法的特徵抽取都是對一類問題有解,比如k means等聚類。深度學習抽象模擬了人類神經元傳遞和連線方式,理論上可以解決多種分類問題和 問題,甚至研究未知領域。深度...

深度強化學習

一 簡介 1 深度強化學習出現的原因 傳統的強化學習中當狀態和動作空間是離散且維數不高時可使用q table儲存每個狀態動作對的q值。然而比較複雜的 更加接近實際情況的任務則往往有著很大的狀態空間和連續的動作空間,這種情況下使用q table不現實。同時實現端到端的控制也是要求能處理高維的,如影象 ...

深度強化學習

強化學習 reinforcement learning 與深度學習同屬機器學習的範疇,是其中 一 個重要的分支,主要用來解決連續決策的問題。強化不像無監督學習那樣完全沒有學習目標,也不像監督學習那樣有非常明確的目標 如影象分類問題中的label 強化學習的目標是不明確的,模型只會向著能夠得到更多獎勵...