深度學習訓練，選擇P100就對了

2021-08-10 17:43:30 字數 1088 閱讀 1638

1.背景

去年4月，nvidia推出了tesla p100加速卡，速度是nvidia之前高階系統的12倍。同年9月的gtc china 2016大會，nvidia又發布了tesla p4、p40兩款深度學習晶元。tesla p100主攻學習和訓練任務，而tesla p4&p40主要負責影象、文字和語音識別。

同為pascal架構且運算能力接近的p100和p40常常被拿來對比，單看spec上運算能力，似乎p40比p100的深度學習效能更好，但實際上呢？本文就通過使用nvcaffe、mxnet、tensorflow三個主流開源深度學習框架對p100和p40做效能實測來揭曉答案吧。

２.初步分析

3.實測資料

3.1 nvcaffe:googlenet

使用imagenet ilsvrc2012資料集，其中訓練1281167張，驗證測試 5萬張，資料單位是images/second（每秒處理的影象張數），oom表示batch size太大導致gpu視訊記憶體不夠。

測試資料如下：

不同batch size單卡效能對比：

最大效能對比：

3.2 mxnet:inception-v3

使用benchmark模式測試imagenet訓練，資料單位samples/sec，測試資料如下：

3.3 tensorflow:alexnet

tensorflow使用alexnet benchmark模式測試單gpu forward和forward-backward作為比較參考，資料單位sec/ batch，越小效能越好。

p100與p40比較的單gpu測試資料如下：

4 測試結論

通過實測nvcaffe、mxnet、tensorflow三個主流深度學習框架的影象分類訓練效能，驗證了我們前面的分析，p40雖然計算力優於p100，但是受限於視訊記憶體頻寬，在深度學習訓練上效能是不如p100的，通過實測資料，我們可以得出結論：p100比p40訓練效能至少高出20%以上。

深度學習訓練，選擇p100就對了。

阿里雲上提供的gn5系列gpu例項，可搭載最多8塊p100 gpu，可大大加速深度學習訓練，搭載最新v100 gpu的gn6例項近期也已經上線公測，我們後續也會給出gn6例項的效能評測報告。

閱讀原文

深度學習訓練，選擇P100就對了

1.背景去年4月，nvidia推出了tesla p100加速卡，速度是nvidia之前高階系統的12倍。同年9月的gtc china 2016大會，nvidia又發布了tesla p4 p40兩款深度學習晶元。tesla p100主攻學習和訓練任務，而tesla p4 p40主要負責影象文字和語...

深度學習100問

3x3 是最小的能夠捕獲畫素八鄰域資訊的尺寸。兩個 3x3 的堆疊卷基層的有限感受野是 5x5 三個 3x3 的堆疊卷基層的感受野是7x7，故可以通過小尺寸卷積層的堆疊替代大尺寸卷積層，並且感受野大小不變。多個 3x3 的卷基層比乙個大尺寸 filter卷基層有更多的非線性更多層的非線性函式使得...

深度學習面試100題

深度學習面試100題第1 5題經典常考點cnn 深度學習面試100題第6 10題深度學習面試100題第11 15題深度學習面試100題第16 20題深度學習面試100題第21 25題深度學習面試100題第26 30題深度學習面試100題第31 35題深度學習面試100題 ...