MIT發布新模型,用於鑑別智慧型系統的「盲點」

2021-09-17 08:12:33 字數 2645 閱讀 5106

麻省理工學院和微軟研究院的研究人員開發了乙個新模型,能夠鑑別出智慧型系統從訓練樣本中「學習」到的,與實際情況不匹配的例項,稱為「盲點」。這種「盲點」可能會在真實場景中導致重大錯誤。工程師可以使用這個模型來提公升人工智慧系統的安全性,如無人駕駛系統和自主機械人系統。

ai系統驅動的無人駕駛汽車在虛擬**中進行了大量的訓練,讓車輛準備好應對幾乎所有可能發生在道路上的事件。但有時汽車仍然會在現實世界中產生意外的錯誤,比如某個事件的出現應該改變汽車的行為,但是並沒有。

假設有乙個未經訓練的無人駕駛汽車,更重要的是沒有必要的感測器來區分完全不同的場景,比如大型白色汽車和閃著紅燈的救護車。如果汽車在公路上行駛,救護車的在鳴笛閃燈,無人駕駛汽車可能不會減速和停車,因為它不了解救護車與大白車的不同。

在去年的自動**和多智慧型體系統會議(aams)以及即將到來的人工智慧協會會議(aaai)的兩篇**中,研究人員介紹了乙個使用人為輸入來發現這些訓練「盲點」的模型。

與傳統方法相同,研究人員首先讓人工智慧系統進行模擬訓練。但是,當系統在現實世界中執行時,會有人密切監視系統的行為,在系統做出或即將犯下任何錯誤時提供反饋。然後研究人員將訓練資料與人為反饋資料相結合,並使用機器學習技術生成乙個模型,該模型能夠精確地指出什麼場景下系統最需要更多的資訊,來指導它做出正確的行為。

研究人員用電子遊戲驗證了他們的方法,用乙個模擬的人糾正了螢幕上人物的學習路徑。但下一步是將智慧型系統的傳統訓練和測試方法與模型相結合,這裡指的是帶有反饋的訓練和測試方法。

「這個模型幫助智慧型系統更好地了解他們不知道的東西」,**第一作者ramya ramakrishnan,電腦科學和人工智慧實驗室的研究生介紹說:「很多時候,當系統被部署時,它們的訓練模擬環境不符合真實世界的設定,會導致它們出現錯誤,例如發生交通事故。這個想法是通過人類的反饋,以一種安全的方式在模擬環境和現實世界之間搭起一座橋梁,這樣我們就可以減少一些錯誤。」

一些傳統的訓練方法確實在真實環境的測試執行期間提供了人類反饋,但那只是為了更新系統的行為。此類方法不能鑑別盲點,而盲點對現實世界中ai系統的安全有重大意義。

研究人員的方法是首先對人工智慧系統進行模擬訓練,使其產生乙個「策略」,該策略基本上把每一種場景都對映到模擬中所能採取的最佳行動。然後,將該系統部署在現實場景中,當系統的行為不可接受時,需要人類提供錯誤訊號。

人類可以通過多種方式提供資料,例如「演示」和「修正」。在演示中,人類在現實世界中活動,而系統進行觀察,並且將自己在某個場景下會採取的行為和人類的行為進行對比。例如,對於無人駕駛汽車,如果其計畫的行為偏離了人類的行為,系統會發出訊號,人類可以手動控制汽車。是否與人類行為匹配,從一定程度上表明了系統採取的行動是可接受的還是不可接受的。

或者,人類可以提供修正,人類對執行在現實世界的系統進行監視。自動駕駛汽車沿著計畫的路線行駛時,可以讓乙個人坐在駕駛位。如果汽車的行為是正確的,那駕駛員什麼也不用做。然而,如果汽車做出了不正確的行為,駕駛員可以掌控方向盤,這就發出了乙個訊號,表明系統在這種情況下的行為是不可接受的。

來自人類的反饋資料被編譯之後,系統會有乙個場景列表。對於每種場景,會有多個標籤來表示其行為是可接受的還是不可接受的。單一的場景可以接收許多不同的訊號,因為對系統而言,它感知到的許多場景是相同的。例如,無人駕駛汽車可能很多次從一輛大汽車旁經過,而不會減速或停車。但是,在乙個例子中,它從救護車旁邊經過,而救護車對系統來說和大汽車完全相同。因此自動駕駛車輛不會靠邊停車,於是系統收到反饋訊號,告知系統採取了不可接受的行為。

「在那個場景中,這個系統接收了來自人類的多個相互矛盾的訊號:有的時候旁邊有一輛大汽車,而系統運轉良好,但有時在同樣的位置出現了救護車,系統就出現了錯誤。系統會注意到它做錯了什麼,但它不知道為什麼。」 ramakrishnan說:「因為**獲得了所有的矛盾訊號,下一步就是編譯這些資訊,向系統提問:『我在收到這些混合訊號的情況下,是我犯了錯誤的可能性有多大?』

模型最終目標是將這些模糊的情況標記為「盲點」。但這不只是簡單地標記出每種情況可接受的和不可接受的行動。例如在救護車的例子中,系統在10次中執行了9次正確的行為,如果用簡單的多數表決會將該情況標記為安全的。

「但是,由於不可接受的行動數量遠遠少於可接受的行動數量,系統最終的學習結果是**所有的情況都是安全的,這對於無人駕駛來說是極其危險的,」ramakrishnan說。

為此,研究人員使用了dawid skene演算法,一種常用於眾包的機器學習方法來處理標籤雜訊。該演算法將情況列表作為輸入,每乙個情況都有一組帶雜訊的「可接受」和「不可接受」的標籤。然後,它聚集所有的資料,並使用一些概率計算來識別**的盲點情況下標籤呈現的模式,以及**的安全情況下標籤呈現的模式。使用該資訊,它為每個情況輸出乙個單聚合的「安全」或「盲點」標籤,以及其標籤的置信程度。值得注意的是,有時對於某個場景,該演算法在90%的時間裡都執行了可接受的行為,但是該場景仍然屬於模糊的,值得被標註為乙個「盲點」。

最後,該演算法產生一種 「熱度圖」,標註出系統原始訓練中的每個場景被視為盲點的概率。

ramakrishnan說:「當系統被部署到真實環境時,它可以利用這個學習的模型做出更加謹慎和智慧型的判斷。如果模型**某個場景是高概率的盲點,系統可以向人類諮詢可接受的行為,從而更安全的行駛。」

賓夕法尼亞大學的計算機與資訊科學教授eric eaton說:「這項研究是乙個很好的轉折點,當模擬器和現實世界之間存在不匹配的情況時,可以直接從專家對系統行為的反饋中發現這一不匹配。」他補充說,這項研究「有很好的潛力,讓機械人**在新的情況下是否會採取錯誤的行動,從而採納操作員(人類)的意見。下乙個挑戰將是利用這些發現的盲點,用它們來改善機械人的內在表現,以更好地匹配真實世界。

檢視英文原文:

華為舉辦首屆智慧型計算大會並發布智慧型計算新戰略

中國,北京,2018年12月21日 華為今日在北京召開了主題為 芯開始,讓智慧型計算無所不及 的首屆華為智慧型計算大會暨中國智慧型計算業務戰略發布會。華為智慧型計算將圍繞算力 工程 雲邊協同和一體化解決方案四個方面,面向行業構建全棧全場景智慧型解決方案,加速行業智慧型化程序,使能行業的智慧型化再造。...

英偉達發布超強大新型晶元用於人工智慧

4月7日訊息,據theverge 報道,英偉達發布了一塊新型晶元,極大的推動了機器學習的極限。英偉達ceo黃仁勳本周二在公司年度gpu技術大會上發布的這款特斯拉p100 gpu,它可以執行深度學習神經網路任務,速度是英偉達之前高階系統的12倍。據英偉達表示,p100是英偉達傾力之作,研發費用高達20...

小鵬汽車官方預告明日將發布全新 智慧型新物種

程式設計客棧 www.cpwww.cppcns.compcns.com 9月6日訊息 今天中午,小鵬汽車官方發布了乙份海報,表示明日將有全新 智慧型新物種 亮相。有訊息稱,該產品或將是全球首款可騎乘智慧型機器馬。來自 程式設計客棧小鵬汽車 8月26日,小鵬汽車正式vcjnjt對外發布第二季度財報。財...