李飛飛為什麼計算機視覺對機械人如此重要？

根據guide2research的排名，iros是計算機視覺領域排名第四的學術會議，前三名分別為cvpr、iccv、eccv。計算機視覺在機械人的發展史中起著非常重要的作用，與之相關的「感知」也正是歷年iros大會上的重要內容，隨著機械人研究的發展和「越來越接近人類」這個目標的進一步深入，越來越多的學者更深刻認識到了計算機視覺對機械人整個行業發展的重要性。雷鋒網認為，隨著近幾年深度學習在計算機視覺領域的突破，計算機視覺在機械人領域的應用也將會迎來乙個新的時期，這也是今年的iros大會邀請李飛飛教授到iros做大會報告的原因。

如李飛飛開場所言，這是她第一回參加iros，但她希望和做機械人研究的朋友們進行交流，分享在她眼中計算機視覺對機械人意味著什麼，並介紹她在imagenet後，與其斯坦福研究團隊正在從事的其他研究專案，而這些專案對未來機械人的感知和認識我們所處的環境尤為重要。

「希望可以說服做機械人研究的朋友，（計算機）視覺是機械人的殺手級應用。」在演講前一天，李飛飛在twitter上這麼說。

李飛飛在 iros 2017

李飛飛：我會與大家分享最近在做的視覺工作，聊一聊計算機視覺與視覺智慧型領域的歷史背景。這些都是仍在進行中的研究，歡迎自由討論。

朋友建議我，在機械人大會演講至少要放一張機械人的。我挑了一張最喜歡的：

問題來了：為什麼在這幅兒童畫裡，機械人是有眼睛的？

我認為這與進化演進有關。不管是智慧型動物還是智慧型體，眼睛/視覺/視力都是最基本的東西（兒童在潛意識裡也這麼認為）。讓我們回到 5.4 億年前的寒武紀——在寒武紀生物大爆發之前，地球上的生物種類算不上多，全都生活在水裡，被動獲取食物。但在距今約 5.4 億年的時候，非常奇怪的事情發生了（如下圖）：短短一千萬年的時間內，各種各樣的新物種紛紛湧現，這便是「寒武紀大爆發」。

這背後的原因是什麼？

最近，一名澳大利亞學者提出了一套非常有影響力的理論，把寒武紀大爆發歸功於——視覺。在寒武紀，最早的三葉蟲進化出了一套非常原始的視力系統，就像最原始的德科相機，能捕捉到一丁點光。但這改變了一切：能「看」之後，動物開始主動捕食。獵手和獵物之間從此開始了持續數億年的「追蹤—躲藏」遊戲，行為越來越複雜。從這個節點往後，幾乎地球上所有動物都進化出了某種形式上的視覺系統。5.4 億年之後的今天，對於人類，眼睛已成為我們最重要的感測器，超過一半的大腦都會參與視覺功能。

在地球生物向更高智慧型水平進化的過程中，視覺真的是非常重要的推動力量。

這套如此神奇的感知系統，便是我今天想要講的主題。這也是我們對機器的追求——讓機器擁有人類這樣的視覺智慧型。

下面，我講乙個小故事，關於人類視覺系統的令人驚嘆之處。

而大家確實都能夠找出來。這非常令人驚嘆，只需 100 微秒，我們的視覺系統就能檢測到從來沒見過的人。

1996 年，神經心理學家 simon j. thorpe 在《自然》發表了一項研究，通過腦電波觀察人腦對複雜影象進行分類的速度。他發現，僅需 150 微秒，大腦就會發出一道區分訊號，對畫面中的物體是否為動物做出判斷。

後來，哈佛人體視覺學者 jeremy wolfe 在**中寫道，雖然很難去衡量乙個人究竟看到了什麼、對某個畫面達到了什麼程度的理解，但直覺告訴我們，畫面中的物體應當是我們觀察的物件之一。

看起來很顯而易見，但這提醒我們，對物體的識別是視覺最基礎的部分之一，計算機視覺也在這個領域攻關了許多年。從 2010 到 2017，imagenet 挑戰賽的目標識別（object recognition）錯誤率一直在下降。到 2015 年，錯誤率已經達到甚至低於人類水平。

我不會說目標識別是個已經攻克的領域。許多關鍵問題尚待研究，其中不少和機械人息息相關。比如 3d 輪廓理解，目標區域性理解，對材料、紋理的理解等等。這些方面的研究非常活躍，我也感覺到做這些比組織 imagenet 分類任務挑戰賽更有意思。

接下來，我想分享一些新的、探索性的工作，而不是列出識別物件清單（inventory list of objects）這樣的基礎研究。讓我們回到 jeremy wolfe 的**，他繼續寫道：「物體之間的關係，必須寫進 gist。」

假設有兩張：把一盒牛奶倒進玻璃杯；把一盒牛奶倒出來（倒在空中），旁邊放著乙隻玻璃杯。兩者不是一回事。兩張中的物體都一樣，但它們之間的關係不同。

僅憑的物件清單，無法完整傳遞其內容。下面是另乙個例子：

兩張**都是人和羊駝，但是發生的事情完全不同。當然，過去在這方面也有不少研究，包括空間關係，行為關係，概率關係等等，就不一一闡述了。這些工作基本都在小型封閉環境中開發測試，探索的也不過十幾、二十幾種關係。而我們希望把視覺關係的研究推向更大的尺度。

我們的工作基於視覺表達和 leverage model 的結合，通過把影象空間的 embedding 以及關於物件關係的自然語言描述以巧妙的方式結合起來，避免了在物件和物件之間的關係做乘法帶來的計算負擔。

上圖展示的便是視覺化結果的質量。給定該**，我們的演算法能找出空間關係、比較關係、不對稱空間關係、動詞關係、行為關係以及介詞關係。

更有意思的是，我們的演算法能實現 zero-shot （零樣本學習）物件關係識別。舉個例子，用一張某人坐在椅子上、消防栓在旁邊的訓練演算法。然後再拿出另一張，乙個人坐在消防栓上。雖然演算法沒見過這張，但能夠表達出這是「乙個人坐在消防栓上」。

類似的，演算法能識別出「一匹馬戴著帽子」，雖然訓練集裡只有「人騎馬」以及「人戴著帽子」的。當然，這個演算法還很不完美。例如當兩個類似的物件（如兩個人）部分重疊在一起，演算法就容易判斷失誤。如下圖，演算法錯誤得認為是左邊的人在扔飛碟：

這是乙個計算機視覺下面飛速發展的領域。在我們團隊的 eccv 2016 **之後，今年有一大堆相關**發表了出來，一些甚至已經接近了我們的模型效果。我非常欣喜能看到該領域繁榮起來。

李飛飛為什麼計算機視覺對機械人如此重要？

李飛飛計算機視覺自用筆記（第三週）

計算機械人走的範圍

計算機視覺與機器視覺有什麼區別？

李飛飛 為什麼計算機視覺對機械人如此重要？

李飛飛計算機視覺 自用筆記（第三週）

計算機械人走的範圍

計算機視覺與機器視覺有什麼區別？

相關推薦

李飛飛為什麼計算機視覺對機械人如此重要？

李飛飛計算機視覺自用筆記（第三週）