多智慧型體強化學習環境

2021-10-04 04:47:31 字數 1162 閱讀 3672

環境是強化學習的核心要素之一。不同的環境一直是研究新的強化學習演算法的動力。但是讓智慧型體和真實環境互動的代價是很大的,不但費時費力,甚至有的時候根本不可能進行互動。

現在的多智慧型體強化學習和強化學習早期境遇很像,只有較少的環境可用。另外在不同的智慧型體之間分享資訊的設定範圍可能很廣,有些環境涉及通訊,有些共享聯合獎勵,有些共享全域性狀態。

作為一款複雜的即時戰略遊戲,星際爭霸2受到了很大的關注,《learning to communicate with deep multi-agent reinforcement learning》《qmix: monotonic value function factorisation for deep multi-agent reinforcement learning》等很多**都使用星際爭霸2作為環境。

注:這裡介紹的環境smac與deepmind的pysc2有所不同,它更關注分散的微觀管理方法,遊戲中的每個單位都是受單獨的強化學習智慧型體控制。

《multi-agent actor-critic for mixed cooperative-competitive environments》所用的環境。

《multi-agent reinforcement learning in sequential social dilemmas》和《value-decomposition networks for cooperative multi-agent learning》所用的環境。

《neighborhood cognition consistent multi-agent reinforcement learning》所用的足球環境。

炸彈人

用於marl研究的交通訊號環境。

提供了十多種小的遊戲環境。

乙個遊戲平台的機器學習智慧型體工具包,可以是簡單的網格世界,也可以是複雜的多智慧型體戰略遊戲。這些遊戲可以作為訓練智慧型體的環境。 該框架支援合作和競爭的多智慧型體環境。unity賦予了建立任何型別的多智慧型體環境的能力,儘管它不是專門為多智慧型體系統設計的。

有少數幾個遊戲有雙人場景

平均場mean field multi-agent reinforcement learning(mfmarl)用到的環境

多智慧型體作戰競技場是 cetc-tfai 團隊開發的異構多智慧型體分布式決策與控制技術研究平台。它著重於人工智慧技術的應用,例如多agent合作和對抗中的強化學習

多智慧型體強化學習筆記 01

跟單智慧型體強化學習相比,多智慧型體強化學習的入門似乎更難,想了想覺得有以下幾個方面的原因 1 多智慧型體強化學習研究成果較少,沒有一本經典的系統的書籍來介紹。而單智慧型體強化學習演算法有本神作,即sutton的 reinforcement learning an introduction 有這本神...

多智慧型體強化學習系列 開貳錘 ECKai

多智慧型體強化學習入門 一 基礎知識與博弈 多智慧型體強化學習入門 二 基礎演算法 minimax q,nashq,ffq,wolf phc 多智慧型體強化學習入門 三 矩陣博弈中的分布式學習演算法 多智慧型體強化學習入門 四 maddpg演算法 多智慧型體強化學習入門 五 qmix演算法分析 多智...

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...