MIT團隊訓練AI玩任鬥 已躋身頂級玩家之列

2021-08-19 12:54:16 字數 1490 閱讀 2067

任鬥,玩過沒?對,就是任天堂全明星大亂鬥。

麻省理工一研究生研究了乙個ai,玩任鬥,現在已經躋身世界頂級玩家之列了。

ai下象棋下圍棋已經不是什麼新鮮事兒了,德州現在也能玩得溜了,不玩棋牌類開始玩網遊了,各位,危機感有沒有。

philip是麻省理工大學研究生 vlad firoiu帶隊研發的深度學習系統。2月21日,該團隊在arxiv上發布了一篇名為beating the world』s best at super smash bros. with deep reinforcement learning(《用深度增強學習打敗世界最強任鬥選手》)的**。(**位址)

該團隊並沒有踩在deepmind的肩膀上,幾人白手起家,從頭做起。儘管philip與人類玩家的對抗還略顯焦灼,但成果已算可喜可賀。

mafia甚至覺得,philip的移動快到好像在原地發抖。事實上,團隊給philip開了一些外掛程式:

philip的反應時間為33ms,而人類的反應時間在200ms以上。

其實philip不會投射攻擊( projectile attacks),這也是為什麼它玩captain falcon的原因,其餘幾乎所有角色都需要使用投射攻擊。

人類玩家靠眼睛看螢幕做出反應,philip直接讀取遊戲記憶體來確定角色的位置資訊,連帶著速度、狀態也一併都讀取了。

雖然開了外掛程式,人類玩家還是有戰勝philip的方法。一位很聰明的人類選手發現了philip的乙個bug,只要蹲伏在螢幕一角,philip就會表現怪異、開始自閉、拒絕攻擊、最後跳崖自殺。

通過遷移學習可以使philip在不同角色中切換。也就是說按照 fox mccloud(任鬥角色之一)訓練的ai也可以玩 captain falcon或者 peach。

vlad說,遷移學習在此情景下能夠成功應用的原因或許是角色之間存在共通性。角色的移動、當對手靠近時如何發動攻擊,這些策略在不同的角色間是相通的。

訓練philip玩某一特定角色的難度,和人類對該角色難度的認知是相符的。這樣訓練資料反過來能夠揭示並證實不同角色的難度—— peach、fox、falco相對比較簡單, captain falcon就比較難一些。這個ssbm(任鬥社群)上的聲音相符。

vlad表示,philip的下一步優化將從調低反應速度開始。調低至人類的平均反應速度將會**philip的一些奇怪策略,這樣能夠將其拉至人類玩家的認知領域。

如何訓練AI

如何訓練ai讓其更加智慧型,而不是用特定的 控制ai邏輯!首先應該為機械人設定幾個必要資訊 目標規則 能力目標,規定機械人要做到什麼。規則,規定機械人的限制,不能做什麼。能力,規定機械人的功能,能做什麼。依據計算機的高效能,可以讓機械人根據規則組合各種能力,達到目標。在過程中會產生很多分支,應該有人...

AI玩俄羅斯方塊(Python實現)

1 環境 2 實現機制 pierre dellacherie演算法 3 實現 人工智慧大火的今天,如果還是自己玩俄羅斯方塊未免顯得太low,為什麼不對遊戲公升級,讓機器自己去玩俄羅斯方塊呢?有了這個想法之後,在python實現俄羅斯方塊這個遊戲基礎上,利用週六週日兩天的時間去蒐集了大量的資料,在電腦...

拓展訓練感受團隊魅力

在這兩天一夜的訓練中,經歷了十餘個高難度專案,並通過歡快愉悅又不失競爭緊迫感的篝火晚會,充分展現出團隊活力 團隊凝聚力和向心力,讓各項任務圓滿達成。拓展訓練,練就了每個人無所畏懼勇往直前的信念 拓展訓練,磨練了每個人的意志和心裡承受能力 拓展訓練,完成了每個人突破自我挑戰極限的目標。本次活動,讓我看...