看Deepmind機械人尬舞,邊玩邊學AI技術

2021-09-20 15:13:14 字數 2289 閱讀 8769

deepmind通過增強學習讓木偶學習行走、跑跳。

在自然界中,無論是動物,還是人類,都可以靈活而隨心所欲地做出一些動作,比如猴子在樹上自由自在得擺動,或是nba球員虛晃過對手,帥氣地投出籃球。但是在ai 研究領域,想要讓機械人掌握這些動作(物理上就是一種複雜的電機控制)卻不是一件容易的事,而這是ai研究領域的重要組成部分。

近日,deepmind公布了智慧型電機的相關研究成果,展示了機械人學習如何控制和協調身體來解決在複雜環境中的任務。這一研究涉及不同領域,包括計算機動畫和生物力學。

接下來我們帶領大家邊玩邊學。

此處採用的是增強學習,但不同於deepmind此前開發的atari或go,這裡,需要準確描述複雜行為。具體來說,就是獎勵機制的不同,在atari和go的開發過程中,設計人員將得分作為獎勵,就可以依照預期來優化系統。但是在連續的控制任務(如運動)中,獎勵訊號的選擇就沒有那麼容易,常常會出現獎勵訊號的選擇不當,從而導致優化結果與設計師期望不符。

由此,自然就會想到慎重選擇獎勵訊號,以此來實現優化,但是如果謹慎設計獎勵,也就等同於迴避了增強學習的核心問題:系統如何直接從有限的獎勵訊號中自主學習,讓木偶實現豐富而有效的動作行為。

研究團隊表示,為了讓系統有自我學習的能力,他們選擇直面增強學習中的核心問題。於是團隊以環境本身具有足夠的豐富性和多樣性為研究的主要背景,從兩方面實現學習:

一:預設一系列不同難度級別的環境,引導木偶學習和找到解決困難的方案;

二:因為過擬合,獎勵機制和動作細節都具有一定的誤差,從而每一次運動都有些微不同。發現不同方案之間的特殊效能差距,也將幫助系統有效學習。

為了使操控的木偶面對不同的地形有效的學習,研究團隊還開發了增強學習演算法。

首先,團隊開發了強大的策略梯度演算法,如信任區域策略優化(trpo)和近端策略優化(ppo),其中,他們選擇將每次更新的引數繫結到信任區域以確保演算法的穩定性。

其次,對於像廣泛使用的a3c演算法以及相關演算法,他們將其分配運用在許多並行的**環境和例項中。

這樣,面對複雜的環境,通過自主學習,木偶自然就會有豐富而有效的行為表現。

再來看看下面的「群魔亂舞」

據了解,構建可程式設計人形木偶的問題可以追溯到幾個世紀以前。在2023年,達文西以裝甲騎士的形式構建了乙個人形自動機。騎士能夠通過曲柄傳遞的力量揮動,坐起來,開啟和關閉其下巴。不像大多數鐘錶只能產生沿著單極迴圈的運動,機械騎士可以重新程式設計以改變其運動,從而能夠及時改進手臂運動方向或交替運動順序。

現如今,在此系統中,最優控制和增強學習能夠用來設計人形木偶的行為,並且神經網路能夠儲存動作行為和靈活檢測多種運動模式,將這幾種技術融合,可實現運動控制。但研究團隊表示,依靠純增強學習(rl),會使運動行為過於刻板,不符合設計期望。

通常,在計算機動畫相關文獻中使用的替代性方案是採取運動捕捉資料,將其載入到控制器中。在視覺上,採取這一方案的方法都產生了讓人滿意的運動表現,然而,其中有些方法產生的狀態序列僅僅是理論上的,物理上並不適用。還有一些方法需要設計大量的組成因素,如成本函式。

而此處,為了從運動捕捉資料中進行仿製學習,研究團隊採用生成對抗模仿學習(gail),這是模仿學習中最近的一項突破,簡言之,該方法就是以類似於生成對抗網路的方式產生模仿策略。與已存在的模仿學習相比,該方法的主要優點是模仿與演示資料之間相似度的衡量不是基於預先設計好的度量值。

具體操作上,主要就是先訓練低級別控制器,通過使用gail的擴充套件來從運動捕捉資料中生成行為訊號,接著將低級別控制器嵌入更大的控制系統中,其中高階別控制器通過rl學習調製低級別控制器來解決新任務。

顯然,通過對抗模仿學習,人偶會有更加靈活的身手。

據悉,該系統的具體實現主要基於一種生成模型的神經網路架構,它能夠學習不同行為之間的關係。

首先,給其乙個基本動作,通過訓練,該系統可以自動對最基本動作進行編碼,並且基於基本動作及對抗學習,系統自動微小改變來創新乙個新動作。同時,研究團隊還表示他們的系統可以在不同型別的行為之間切換。

實現系統的靈活性和適應性是ai研究的關鍵因素,deepmind研究團隊直面困難,專注於開發靈活的系統,雖然目前系統模型依然粗糙,但是我們還是很期待後期進一步的優化和改進後的成果。

2017-07-13 14:22

lynn

尬聊機械人

具體的使用方法可以參考官方的教程 itchat itchat的安裝,傻子步驟 pip3 install itchat 圖靈,這位偉大的任務,我們都知道,判斷和你對話的是人還是機械人的第一關就是反覆問他同乙個問題,也就是我們所熟悉的圖靈測試 當然,現在為止,還沒有能通過圖靈測試的機器 今天我們需要用到...

程式設計實現連連看機械人外掛程式

在 黑客防線 發表過的一篇,沒什麼含量,連連看是一款非常不錯的休閒遊戲,相信大家都玩過。這裡的連連看是單機版 v3.0 網上曾經有過此類外掛程式,不過只能通過修改記憶體遊戲數值提高生命值和提示數量。顯然在自動化日益發達的今天,它不能滿足我們完全自動化的要求。於是乎,機械人玩遊戲提上日程。程式設計工具...

PVCBOT 19號 漫舞者 摺疊滑步機械人

本專案是乙個橫向爬行的仿生機械人,從本專案開始的機械人在機械結構和傳動機構上將更為複雜,為了減輕機械人的整體重量以及提高其運動的效率和速度,接下來這些新的仿生類機械人都將採用微型鋰電池作為能源,即都是以微能系列版本為主。當前機械人運動完全是靠腳步摺疊滑動行進的,而且同時其頭部以及身體還有乙個搖擺扭動...