1.背景
去年4月,nvidia推出了tesla p100加速卡,速度是nvidia之前高階系統的12倍。同年9月的gtc china 2016大會,nvidia又發布了tesla p4、p40兩款深度學習晶元。tesla p100主攻學習和訓練任務,而tesla p4&p40主要負責影象、文字和語音識別。
同為pascal架構且運算能力接近的p100和p40常常被拿來對比,單看spec上運算能力,似乎p40比p100的深度學習效能更好,但實際上呢?本文就通過使用nvcaffe、mxnet、tensorflow三個主流開源深度學習框架對p100和p40做效能實測來揭曉答案吧。
2.初步分析
3.實測資料
3.1 nvcaffe:googlenet
使用imagenet ilsvrc2012資料集,其中訓練1281167張, 驗證測試 5萬張,資料單位是images/second(每秒處理的影象張數),oom表示batch size太大導致gpu視訊記憶體不夠。
測試資料如下:
不同batch size單卡效能對比:
最大效能對比:
3.2 mxnet:inception-v3
使用benchmark模式測試imagenet訓練,資料單位samples/sec,測試資料如下:
3.3 tensorflow:alexnet
tensorflow使用alexnet benchmark模式測試單gpu forward和forward-backward作為比較參考,資料單位sec/ batch,越小效能越好。
p100與p40比較的單gpu測試資料如下:
4 測試結論
通過實測nvcaffe、mxnet、tensorflow三個主流深度學習框架的影象分類訓練效能,驗證了我們前面的分析,p40雖然計算力優於p100,但是受限於視訊記憶體頻寬,在深度學習訓練上效能是不如p100的,通過實測資料,我們可以得出結論:p100比p40訓練效能至少高出20%以上。
深度學習訓練,選擇p100就對了。
阿里雲上提供的gn5系列gpu例項,可搭載最多8塊p100 gpu,可大大加速深度學習訓練,搭載最新v100 gpu的gn6例項近期也已經上線公測,我們後續也會給出gn6例項的效能評測報告。
閱讀原文
深度學習訓練,選擇P100就對了
1.背景 去年4月,nvidia推出了tesla p100加速卡,速度是nvidia之前高階系統的12倍。同年9月的gtc china 2016大會,nvidia又發布了tesla p4 p40兩款深度學習晶元。tesla p100主攻學習和訓練任務,而tesla p4 p40主要負責影象 文字和語...
深度學習100問
3x3 是最小的能夠捕獲畫素八鄰域資訊的尺寸。兩個 3x3 的堆疊卷基層的有限感受野是 5x5 三個 3x3 的堆疊卷基層的感受野是7x7,故可以通過小尺寸卷積層的堆疊替代大尺寸卷積層,並且感受野大小不變。多個 3x3 的卷基層比乙個大尺寸 filter卷基層有更多的非線性 更多層的非線性函式 使得...
深度學習面試100題
深度學習面試100題 第1 5題 經典常考點cnn 深度學習面試100題 第6 10題 深度學習面試100題 第11 15題 深度學習面試100題 第16 20題 深度學習面試100題 第21 25題 深度學習面試100題 第26 30題 深度學習面試100題 第31 35題 深度學習面試100題 ...