很多機械人都是通過物理控制以及大量演示才能學習乙個任務,而最近 uc 伯克利的 bair 實驗室發表文章介紹了一種單例模仿學習的方法。這種方法結合了模仿學習與元學習,並可以在觀察人類的動作後學習像人那樣操作物體。
機械人在觀摩人類動作後學會將桃放入紅碗中
這種能力會使我們更容易將新目標與知識傳達給機械人,我們可以簡單地向機械人展示我們希望它們做什麼,而不是遙控操作機械人或設計激勵函式(這是一種困難的方法,因為它需要乙個完整的感知系統)。
以前許多的工作已經研究了機械人如何從人類專家那裡學習(即通過遙控操作或運動知覺教學),這通常被稱為模仿學習。然而,基於視覺技能的模仿學習通常需要大量的專家級技巧演示。例如,根據此前的研究,根據原始畫素輸入實現抓取單個固定物件的任務,大概需要 200 次演示才能實現良好的效能。因此,如果只給出乙個演示,機械人將會很難學習。
而且,當機械人需要模仿人類展示的特定操作技能時,問題會變得更具挑戰性。首先,機械臂看起來與人體手臂明顯不同。其次,不幸的是,設計一套人類演示和機械人演示之間正確的通訊系統十分困難。這不僅僅是追蹤和重新對映動作:該任務更依賴於這個動作如何影響現實存在的物體,而且我們需要乙個以互動為中心的通訊系統。
我們的目標是通過從演示資料中學習來實現這兩種能力,少量樣例模仿和領域不變性。該技術也被稱為元學習,並在之前的部落格中討論過,這是使機械人通過觀察人類來學習模仿能力的關鍵。
單例模仿學習
所以我們如何使用元學習來使機械人快速適應許多不同的物體?我們的方法是將元學習和模仿學習結合起來,實現單例(one-shot)模仿學習。其核心思想是提供乙個特定任務的單個演示,即操縱某個特定物件,機械人可以快速識別該任務並在不同環境下成功解決它。
單例視覺模仿學習
該演算法主要包含三步。
我們元學習演算法的三大步驟
首先,我們收集了乙個包含大量遙控機械人執行不同任務的演示資料集,在我們的例子中,這對應於操縱不同的物件。然後,我們運用 maml 來學習一組初始策略引數 θ,以便在為某個物件提供演示之後,我們可以對演示進行梯度下降,以找到乙個針對該物件引數 θ' 的可泛化策略。在使用遙控演示時,可以通過比較策略的**行動 π_θ(o_t)和演示行動 a*_t 來計算更新策略:
然後,我們通過迫使更新的策略 π_θ' 與另一演示中同一物件的動作相匹配來優化初始引數 θ。在元訓練之後,我們可以讓機械人通過使用該任務的單個演示計算梯度步來操作完全不可見的物體。這一步被稱為元測試。
由於該方法不會為元學習和優化引入額外的引數,因此資料效率非常高。因此它可以僅通過**遙控操作的機械人演示來執行各種控制任務,例如推動和放置:
通過單個演示將物品放入新的容器中。左:演示。右:學習到的策略
通過領域自適應元學習觀察人類的單例模仿
然後,我們為計算策略更新提供人類演示,並使用執行相同任務的機械人演示評估更新後的策略。該演算法的說明圖如下:
領域適應性元學習概述
通過觀察人類操作每個物體的演示來拿起物體並將它們放置在目標容器上:
學習拿起乙個新物體並將其放入以前沒觀察過的碗中
學習通過在不同視角環境中**人類演示來推動新物體
接下來是什麼?
此外,我們在這裡開發的技術並不侷限於機械人操作甚至控制。例如,模仿學習和元學習都被用在自然語言處理中。在語言和其它序列決策環境中,通過少數演示來學習模仿是未來研究的乙個有趣的方向。
新MSN Messenger 7 功能展示
開啟msn messenger 7當然就是登入框,色調和版本6都一樣,多加了幾個元素讓人覺得有點亂.進入主介面我們可以看出有很大的不同,msn的整合,的擴充套件,就連右鍵選單也做出了改進,但更為激動人心的東西不在這裡.欲知詳情請往下看.這個時候我的朋友legend突然發來乙個動畫讓我嚇了一大跳,原來...
hibernate5 1 新特性展示
在hibernate5中,有了一些新的變動 用來引導hibernate 建立乙個sessionfactory 的經典方式一直都是利用configuration配置類。從hibernate的古老版本到現在,它一直支援使用者按任意的順序新增新的配置和關係對映,並允許我們在程式執行過程中查詢獲取相應的狀態...
ipadshow亮相惠州雲博會產品展示新風尚
本文講的是ipadshow亮相惠州雲博會產品展示新風尚,2012年11月2 4日,物聯網.雲計算技術應用博覽會在廣東惠州舉辦。本次展會以 物聯天下 雲領未來 為主題,全面展示了 全球視野 技術引領 名企匯聚 實用惠民 的特點,展示國內外多家知名企業在物聯網和 雲計算領域的各項成果。新一代pad電子目...