英偉達公司已經為ai應用設計出兩款全新tesla處理器,分別為p4與p40。
這款16奈米finfet gpu採用英偉達pascal架構,且延續今年6月發布的p100命名方式。其中p4為單高、單長pcie卡,用於向外擴充套件伺服器;而更為強大的p40則著眼於向上擴充套件裝置。
如今我們的深度學習模型已經發展到新的階段——即利用大規模訓練資料立足強大系統方可起效。但在另一方面,推理功能則需要奮起直追:我們必須能夠利用數字運算處理器向複雜的神經網路推送資料,並藉此進行實時決策。
這對於英特爾、英偉達及其它晶元廠商而言不啻為乙個好訊息,這意味著他們能夠**更多高階晶元以實現訓練及推理。但壞訊息在於,這意味著將有更多資料被傳送至雲端,並在那裡進行處理,而後將結果傳送回我們的手機、平板裝置乃至其它小型計算平台。如此一來,我們需要高度依靠穩定的網際網路連線方案。
英偉達公司高階產品經理roy kim告訴我們,未來的發展趨勢將在於「混合」方案,即在裝置之上建立低精度模型,從而保證決策可立即完成,而後再決定是否利用更為強大的後台處理資源返回更加精確的處理結果。目前最先進的影象識別系統擁有超過150層神經元,kim指出,因此我們目前更需要在推理層面投入研究精力。
有什麼新內容?
為了最大限度提公升推理通量,我們的物聯網雲端個人助手不會在處理問題方面耗費太多時間。英偉達公司已經向其pascal架構中新增了兩條新指令:idp2a與idp4a。二者能夠執行双及四元素8位向量點積計算,並藉此累加為32位。
基本上,資料科學家們認為
8位精度已經足以支撐神經網路,;這意味著如果需要進一步提公升精度以獲得
16位或者
32位值,則可再經由
gpu完成相關運算。事實上,當處理作為深層感知輸入資料的資訊時,我們並不需要太高的計算精度。
谷歌公司的tensorflow加速asic同樣使用8位精度進行推理,而英特爾與amd晶元亦可在8位向量計算領域帶來出色的效能表現。
這是什麼原理?
向量點產品已經成為人工神經網路的核心所在。目前全部熱門ai的核心皆為數學方程串,即從輸入資料中或者普通英文中提取特性,或者從感測器及攝像頭端獲取有價值資訊等,而後再利用軟體對其進行處理。我們可以通過組合或者訓練幫助網路接收資料流,而後通過不同加權機制對其進行分流,直到找出正確答案。這種加權機制貫穿整個訓練過程,旨在檢測輸入資料的重要特性。
以下單個神經元示意圖看起來非常複雜,但請相信我,並沒有大家想象的那麼可怕。首先我們在左側獲得從x1到xn的多個值,其經由n條路徑向右推進。每個xi輸入值都乘以其路徑權重wi,而後再將這些乘積結果相加。這就是所謂點生成機制。在此之後,該加和會被引入乙個閾值或者啟用函式,輸出結果則供網路中的下一感知體系進行使用。
將其加以組合,我們就能夠得到以下這套基本網路,其中包含2個輸入結果,3個神經元與1個輸出結果。
讓我們著眼於頂部神經元。其使用m輸入值,將其乘以加權θ1,而後將結果新增至j再乘以θ2。由此得到的加和經由啟用函式執行,並將結果交付至最右端的神經元。
因此如果忽略啟用函式,那麼頂端神經元的點生成輸出結果為(mxθ1) + (jxθ2)。現在想象一下,如果這些變數各為8位整數,範圍在-127到127之間,或者0到255之間。假設這些點生成運算可每秒執行47萬億次,且全部加和結果都能夠提交至網路的下一階段,那麼這正是英偉達p40的定位所在。也正因為如此,英偉達公司才決定使用8位生成加速計算方案。
英偉達方面宣稱,其p4能夠在理想狀態下每秒執行21.8萬億次8位整數運算,而p4在利用alexanet訓練模型時,第瓦每秒影象分類數量可達到英特爾至強e5 cpu的「40倍」。
當然,這一切都要求我們的ai模型採用8位加權機制。這顯然是一種非常高效的語音識別模型,同時亦可用於識別影象及完成其它類似的推理分類工作。
以下為tesla gpu家族各產品的詳盡規格資料,其中包括全新p4與p40:
tesla加速器
tesla m4
tesla p4
tesla m40
tesla p40
gpumaxwell gm206
pascal gp104
maxwell gm200
pascal gp102
流多處理器820
2430
fp32 cuda 核心 / sm
128128
128128
fp32 cuda 核心/ gpu
1024
2560
3072
3840
基本時鐘
872 mhz
810 mhz
948 mhz
1303 mhz
gpu 啟動時鐘
1072 mhz
1063 mhz
1114 mhz
1531 mhz
int8 top/s
na21.8
na47.0
fp32 gflop/s
2195
5442
6844
11758
fp64 gflop/s
69170
213367
紋理單元
64160
192240
記憶體介面
128-bit gddr5
256-bit gddr5
384-bit gddr5
384-bit gddr5
記憶體頻寬
88 gb/s
192 gb/s
288 gb/s
346 gb/s
記憶體大小
4 gb
8 gb
12/24 gb
24 gb
二級快取大小
2048 kb
2048 kb
3072 kb
3072 kb
註冊檔案大小/ sm
256 kb
256 kb
256 kb
256 kb
註冊檔案大小/ gpu
2048 kb
5120 kb
6144 kb
7680 kb
共享記憶體大小 / sm
96kb
128kb
96kb
128kb
計算容量
5.26.1
5.26.1
tdp50/75 w
75 w (50w option)
250 w
250 w
電晶體數量
2.9 billion
7.2 billion
8 billion
12 billion
gpu晶元大小
227 mm²
314 mm²
601 mm²
471 mm²
製造工藝
28-nm
16-nm
28-nm
16-nm
p4與p40將於今年10月與11月分別開始銷售。如果大家希望早點熟悉這類新方案,則可選擇英偉達公司的pascal titan x顯示卡,其發布於今年7月且同樣擁有44 tops的8位整數運算能力。p40基本上就是一款略微強化過的titan x。
原文發布時間為:
2023年9月14日
孫博
英偉達顯示卡的使用
先讓我興奮的大笑三聲 哈!哈!哈!終於有了1080ti來跑程式了,終於不用等好久才能調一次引數了。回歸正題,使用nvidia顯示卡的時候要注意一些什麼呢?在這裡主要檢視的就是視訊記憶體的使用情況,因為顯示卡記憶體常常會不足,這裡就要時刻注意千萬不要超出視訊記憶體。可能礦卡就是這麼來的。猜的 這裡既然...
Ubuntu18 04英偉達驅動的安裝
2.解除安裝原有n卡驅動 for case1 original driver installed by apt get sudo apt get remove purge nvidia for case2 original driver installed by runfile sudo chmod...
Redis 超高效能的key value資料庫
說明 redis 是乙個高效能的key value資料庫。redis的出現,很大程度補償了memcached這類keyvalue儲存的不足,在部 分場合可以對關聯式資料庫起到很好的補充作用。它提供了python,ruby,erlang,php客戶端,使用很方便。問題是這個專案還很新,可能還不足夠穩定...