Yann LeCun 深度學習硬體前瞻

2021-08-03 23:51:51 字數 2708 閱讀 2618

發表於 2015-09-21 16:54| 

the platform| 

nicole hemsoth

機器學習

深度學習

卷積神經網路

雲計算

摘要:深度學習硬體今後的發展究竟會是怎麼樣的形式,有著「卷積神經網路之父」之稱的yann lecun在此次卷積神經網路的交流中分享給大家。

yann lecun被大家譽為「卷積神經網路之父」,該技術助推了人工智慧在google、facebook等公司的發展,在此之外,lecun也已經不再侷限於扎根演算法領域。正如那些開發全新計算方法的人一樣,他在硬體領域也有深厚背景,尤其是晶元設計,並且在硬體專業化,複雜問題下的資料遷移,以及核效能提公升方面也很拿手。

lecun是從貝爾實驗室的研究真正開始開拓深度學習的,他的研究專案結合了先進的軟硬體聯合設計技術(co-design)。即使在今天,他在伺服器端的機器學習和神經網路迴圈仍廣為人知。他本週在hot chips會議上做了這方面介紹。在關於神經網路進化(硬體和軟體)的演講中,lecun除了介紹自己在貝爾實驗室、facebook研究院和紐約大學(眾多研究機構之一)的經歷之外,還擠出時間和the platform交流了關於卷積神經網路在聯合設計方面今後的發展。

最後,他基於現階段深度學習的能力,以及下一階段更智慧型、更大規模的神經網路,描繪了未來架構的前景。lecun觀點的引人關注之處並不令人驚訝:當前架構在效能上不足以承受下一代機器學習演算法,因為新的演算法已經超越了現有加速工具和程式效能的侷限之處。

但也許更有趣的想法是把fpga作為可配置器件用於神經網路處理更大的網路(同時gpu仍舊保持高效能訓練機制)。lecun向theplatform透露,傳言google正在定製硬體裝置來運算神經網路,而這一硬體正是基於fpga。在the platform其它版塊也報道過,microsoft正在嘗試使用fpga加速神經網路計算,並一直在尋找擁有更強大計算能力的可程式設計邏輯器件。

如果google正在做某件事,microsoft也是齊頭並進,毫無疑問facebook也一定在做,其它一些神經網路前沿開發的公司都跑不了。儘管我們很難理解intel出資$167億美元收購altera,但是這些訊息的確釋放出了某些訊號。lecun說,像google和facebook這個規模的公司在使用有專利的硬體時會十分慎重。「實際上他們都是用自己的硬體裝置或者是一些可程式設計的」,他說道,這使得fpga的機會大門又敞開了一寸。

那麼就下一代神經網路處理所使用的這種特殊硬體方法而言,又將會意味著什麼呢?上述內容可以用lecun本週演講的一張幻燈片來概括,它展示了卷積神經網路在人臉識別的應用究竟有多深。在lecun的職業生涯早期,都是一些簡單對分類(例如,區分飛機和汽車)的任務,現如今已經相當複雜,facebook作為(公開的)大規模使用神經網路做識別的使用者,能夠在5秒之內搜尋8億個人並找到一張人臉。

這個問題的軟體一端已經用其它方式解決了,採用了如torch、caffe等開源的計算框架。但回到訓練神經網路和用於高效大規模執行的下一代硬體這個話題,如何來尋找乙個平衡點,尤其是考慮到相對「基礎」的計算需求(大規模資料集的快速訓練,以及高並行化的加/乘運算操作)。

這些問題早就擺在了lecun面前。早在2023年代和2023年代初期,lecun和他的同事在貝爾實驗室就探索了開發卷積神經網路定製硬體的早期道路。anna的晶元是這一領域的產品之一,儘管它從未被用於貝爾實驗室(其它地方)的商業化應用,但確實顯示了專業化硬體,即簡單的邏輯乘法器,微調神經網路的能力比現有通用處理器強多了。事實上,當時anna晶元有著備受矚目的效能,包括每秒處理40億次運算——在2023年是了不起的成就,對解決當時新湧現的一類問題很有幫助。

如果你仔細了解anna晶元,會發現其最終目標到現在仍未改變。比如,這款晶元對anna電路設計的益處在於它能夠限制和外部儲存的資料傳輸量,這也就意味著晶元的速度不再受限制於處理器能夠承受多少運算量——而是受牽制於晶元和外部進行通訊的頻寬。那個設計概念在多核運算的世界經過一番周折,但是它在複雜環境下效能不足。按照那個設計思路,當然是這樣。畢竟,有一堆多餘的額外能力有什麼用?這裡「可配置性」這個概念又被拋了出來。

lecun透露已經有用相當一部分卷積神經網路在fpga上運算。比如,他提到了2023年代早期的一項場景分析和標籤實驗,當時團隊用virtex-6 fpga以50毫秒每幀的速度取得了不錯的準確率。儘管這是一套完美的框架,不需要對資料做後期處理,然而當年網路的內在因素限制了整個系統的效能。(同樣的,關於virtex fpga的這個想法,下一步在netflow架構上實現時也遇到了其它限制因素,因為種種問題最終沒有轉化為產品——這都是後話)。

幾乎在第一批virtex-6投入使用的同時,gpu計算也進入大家視野,它被證明對lecun的後續工作很有用。lecun指出了這點,以及其它推**像識別技術前進的技術,包括開放來自imagenet資料集的分屬於1000個類別的120萬張訓練,這屬於革命性的新能力。訓練和分類影象的機會呈指數級增加,nvidia gpu的效能也開創了一片全新領域,當時它的處理能力已經達到每秒萬億次運算。

如果搭建一套完美的深度神經網路硬體平台的需求是超級快的加/乘運算能力,能夠在現實場景計算神經網路演算法,人們有理由相信在「可程式設計」器件(大概是一塊fpga)的基礎之上,強大的gpu能夠橫掃所有訓練過程。在某種程度上,這種模式已經存在了一段時間,nvidia公司新的深度學習使用案例和大公司的豐富例子都在使用gpu進行模型訓練,儘管不如真正處理網路本身那麼多。

lecun的一張幻燈片總結了深度學習的一些硬體選擇。gpu目前佔據了大規模訓練這一端,同時也有其它許多新興技術正在走向**時期,生態系統正在逐步完善。

譯者簡介:趙屹華,計算廣告工程師@搜狗,前生物醫學工程師,關注推薦演算法、機器學習領域。

深度學習三巨頭之Yann LeCun(楊立昆)簡介

在人工智慧研究領域,yann lecun geoffrey hinton 和 yoshua bengio一直被公認為深度學習三巨頭。yann lecun,自稱中文名 楊立昆 計算機科學家,被譽為 卷積網路之父 為卷積神經網路 cnn,convolutional neural networks 和影象...

ubuntu深度學習軟硬體開發環境搭建

硬體 先從硬體自已配機器開始 目前對於個人來說,價效比比較高的深度學習顯示卡是那個11g視訊記憶體的gtx 1080ti.這裡顯示卡定了,接下來就是主機板記憶體硬碟,顯示器。先報一下我配的機器配置 cpu 英特爾 intel i5 7500 酷睿四核 盒裝cpu處理器 1379元 主機板微星 msi...

chapter 15 深度學習的硬體與方法

目前cnn rnn等神經網路已經有了長足的發展,但它由於結構太過複雜,導致體積 對算力的要求以及能耗都大幅提高。在開始之前,先簡單了解下硬體的基礎知識 關於推斷的介紹,可見 我的理解是,推斷可以理解為應用。在訓練好神經網路後,部署到裝置上後,裝置執行的過程,稱為推斷。一 剪枝 pruning 去除掉...