英偉達 超高的效能表現 足以支援AI應用

2021-09-23 05:29:31 字數 3659 閱讀 1747

英偉達公司已經為ai應用設計出兩款全新tesla處理器,分別為p4與p40。

這款16奈米finfet gpu採用英偉達pascal架構,且延續今年6月發布的p100命名方式。其中p4為單高、單長pcie卡,用於向外擴充套件伺服器;而更為強大的p40則著眼於向上擴充套件裝置。

如今我們的深度學習模型已經發展到新的階段——即利用大規模訓練資料立足強大系統方可起效。但在另一方面,推理功能則需要奮起直追:我們必須能夠利用數字運算處理器向複雜的神經網路推送資料,並藉此進行實時決策。

這對於英特爾、英偉達及其它晶元廠商而言不啻為乙個好訊息,這意味著他們能夠**更多高階晶元以實現訓練及推理。但壞訊息在於,這意味著將有更多資料被傳送至雲端,並在那裡進行處理,而後將結果傳送回我們的手機、平板裝置乃至其它小型計算平台。如此一來,我們需要高度依靠穩定的網際網路連線方案。

英偉達公司高階產品經理roy kim告訴我們,未來的發展趨勢將在於「混合」方案,即在裝置之上建立低精度模型,從而保證決策可立即完成,而後再決定是否利用更為強大的後台處理資源返回更加精確的處理結果。目前最先進的影象識別系統擁有超過150層神經元,kim指出,因此我們目前更需要在推理層面投入研究精力。

有什麼新內容?

為了最大限度提公升推理通量,我們的物聯網雲端個人助手不會在處理問題方面耗費太多時間。英偉達公司已經向其pascal架構中新增了兩條新指令:idp2a與idp4a。二者能夠執行双及四元素8位向量點積計算,並藉此累加為32位。

基本上,資料科學家們認為

8位精度已經足以支撐神經網路,;這意味著如果需要進一步提公升精度以獲得

16位或者

32位值,則可再經由

gpu完成相關運算。事實上,當處理作為深層感知輸入資料的資訊時,我們並不需要太高的計算精度。

谷歌公司的tensorflow加速asic同樣使用8位精度進行推理,而英特爾與amd晶元亦可在8位向量計算領域帶來出色的效能表現。

這是什麼原理?

向量點產品已經成為人工神經網路的核心所在。目前全部熱門ai的核心皆為數學方程串,即從輸入資料中或者普通英文中提取特性,或者從感測器及攝像頭端獲取有價值資訊等,而後再利用軟體對其進行處理。我們可以通過組合或者訓練幫助網路接收資料流,而後通過不同加權機制對其進行分流,直到找出正確答案。這種加權機制貫穿整個訓練過程,旨在檢測輸入資料的重要特性。

以下單個神經元示意圖看起來非常複雜,但請相信我,並沒有大家想象的那麼可怕。首先我們在左側獲得從x1到xn的多個值,其經由n條路徑向右推進。每個xi輸入值都乘以其路徑權重wi,而後再將這些乘積結果相加。這就是所謂點生成機制。在此之後,該加和會被引入乙個閾值或者啟用函式,輸出結果則供網路中的下一感知體系進行使用。

將其加以組合,我們就能夠得到以下這套基本網路,其中包含2個輸入結果,3個神經元與1個輸出結果。

讓我們著眼於頂部神經元。其使用m輸入值,將其乘以加權θ1,而後將結果新增至j再乘以θ2。由此得到的加和經由啟用函式執行,並將結果交付至最右端的神經元。

因此如果忽略啟用函式,那麼頂端神經元的點生成輸出結果為(mxθ1) + (jxθ2)。現在想象一下,如果這些變數各為8位整數,範圍在-127到127之間,或者0到255之間。假設這些點生成運算可每秒執行47萬億次,且全部加和結果都能夠提交至網路的下一階段,那麼這正是英偉達p40的定位所在。也正因為如此,英偉達公司才決定使用8位生成加速計算方案。

英偉達方面宣稱,其p4能夠在理想狀態下每秒執行21.8萬億次8位整數運算,而p4在利用alexanet訓練模型時,第瓦每秒影象分類數量可達到英特爾至強e5 cpu的「40倍」。

當然,這一切都要求我們的ai模型採用8位加權機制。這顯然是一種非常高效的語音識別模型,同時亦可用於識別影象及完成其它類似的推理分類工作。

以下為tesla gpu家族各產品的詳盡規格資料,其中包括全新p4與p40:

tesla加速器

tesla m4

tesla p4

tesla m40

tesla p40

gpumaxwell gm206

pascal gp104

maxwell gm200

pascal gp102

流多處理器820

2430

fp32 cuda 核心 / sm

128128

128128

fp32 cuda 核心/ gpu

1024

2560

3072

3840

基本時鐘

872 mhz

810 mhz

948 mhz

1303 mhz

gpu 啟動時鐘

1072 mhz

1063 mhz

1114 mhz

1531 mhz

int8 top/s

na21.8

na47.0

fp32 gflop/s

2195

5442

6844

11758

fp64 gflop/s

69170

213367

紋理單元

64160

192240

記憶體介面

128-bit gddr5

256-bit gddr5

384-bit gddr5

384-bit gddr5

記憶體頻寬

88 gb/s

192 gb/s

288 gb/s

346 gb/s

記憶體大小

4 gb

8 gb

12/24 gb

24 gb

二級快取大小

2048 kb

2048 kb

3072 kb

3072 kb

註冊檔案大小/ sm

256 kb

256 kb

256 kb

256 kb

註冊檔案大小/ gpu

2048 kb

5120 kb

6144 kb

7680 kb

共享記憶體大小 / sm

96kb

128kb

96kb

128kb

計算容量

5.26.1

5.26.1

tdp50/75 w

75 w (50w option)

250 w

250 w

電晶體數量

2.9 billion

7.2 billion

8 billion

12 billion

gpu晶元大小

227 mm²

314 mm²

601 mm²

471 mm²

製造工藝

28-nm

16-nm

28-nm

16-nm

p4與p40將於今年10月與11月分別開始銷售。如果大家希望早點熟悉這類新方案,則可選擇英偉達公司的pascal titan x顯示卡,其發布於今年7月且同樣擁有44 tops的8位整數運算能力。p40基本上就是一款略微強化過的titan x。

原文發布時間為:

2023年9月14日

孫博 

英偉達顯示卡的使用

先讓我興奮的大笑三聲 哈!哈!哈!終於有了1080ti來跑程式了,終於不用等好久才能調一次引數了。回歸正題,使用nvidia顯示卡的時候要注意一些什麼呢?在這裡主要檢視的就是視訊記憶體的使用情況,因為顯示卡記憶體常常會不足,這裡就要時刻注意千萬不要超出視訊記憶體。可能礦卡就是這麼來的。猜的 這裡既然...

Ubuntu18 04英偉達驅動的安裝

2.解除安裝原有n卡驅動 for case1 original driver installed by apt get sudo apt get remove purge nvidia for case2 original driver installed by runfile sudo chmod...

Redis 超高效能的key value資料庫

說明 redis 是乙個高效能的key value資料庫。redis的出現,很大程度補償了memcached這類keyvalue儲存的不足,在部 分場合可以對關聯式資料庫起到很好的補充作用。它提供了python,ruby,erlang,php客戶端,使用很方便。問題是這個專案還很新,可能還不足夠穩定...