深度學習 訓練吃顯示卡 學習深度學習,如何選購顯示卡?

2021-10-16 15:22:30 字數 1388 閱讀 9874

學習深度學習,顯示卡(gpu)可以說是比不可少的投資。本文試圖**哪個gpu才是學習入門價效比最高的?

為什麼深度學習需要gpu?

我們先來比較一下cpu和gpu的不同,下圖是乙個簡化的處理器內部結構圖dram即動態隨機訪問儲存器,是常見的系統記憶體。

cache儲存器:電腦中作高速緩衝儲存器,是位於cpu和主儲存器dram之間,規模較小,但速度很高的儲存器。

alu算術邏輯單元是能實現多組算術運算和邏輯運算的組合邏輯電路。

我們可以很明顯地看出,gpu擁有更多alu,能夠進行強大的計算。cpu是乙個有多種功能的優秀領導者,優點在於排程、管理、協調能力強,計算能力則位於其次。gpu相當於乙個接受cpu排程的「擁有大量計算能力」的員工。

深度學習需要進行大量的矩陣運算,gpu剛好滿足了這一要求。同時gpu還有其他優點:高頻寬:cpu更擅長於快速獲取少量的記憶體,gpu則更擅長於獲取大量的記憶體

多執行緒並行:gpu提供了多核平行計算的基礎結構,且核心數非常多,可以支撐大量資料的平行計算。 平行計算或稱平行計算是相對於序列計算來說的。它是一種一次可執行多個指令的演算法,目的是提高計算速度,及通過擴大問題求解規模,解決大型而複雜的計算問題

如何選購顯示卡?

針對不同深度學習架構,gpu引數的選擇優先順序是不一樣的,總體來說分兩條路線:

卷積網路和transformer:張量核心(gpu)>flops(每秒浮點運算次數)>視訊記憶體頻寬》16位浮點計算能力

迴圈神經網路:視訊記憶體頻寬》16位浮點計算能力》張量核心(gpu)>flops

tim dettmers對比了各個廠商的顯示卡,繪製了下圖:

總之,根據量子位對tim dettmers博文的翻譯,在gpu的選擇上有三個原則:使用gtx 1070或更好的gpu;

購買帶有張量核心的rtx gpu;

在gpu上進行原型設計,然後在tpu或雲gpu上訓練模型。

針對不同研究目的、不同預算,tim給出了如下的建議:最佳gpu:rtx 2070

避免的坑:所有tesla、quadro、創始人版(founders edition)的顯示卡,還有titan rtx、titan v、titan xp

高價效比:rtx 2070(高階),rtx 2060或gtx 1060 (6gb)(中低端)

窮人之選:gtx 1060 (6gb)

破產之選:gtx 1050 ti(4gb),或者cpu(原型)+ aws / tpu(訓練),或者colab

kaggle競賽:rtx 2070

計算機視覺或機器翻譯研究人員:採用鼓風設計的gtx 2080 ti,如果訓練非常大的網路,請選擇rtx titans

nlp研究人員:rtx 2080 ti

嘗試入門深度學習:gtx 1050 ti(2gb或4gb視訊記憶體)

更新:2020.09.09

參考

深度學習 訓練吃顯示卡 在深度學習中餵飽GPU

新智元推薦 前段時間訓練了不少模型,發現並不是大力出奇蹟,顯示卡越多越好,有時候 1 張 v100 和 2 張 v100 可能沒有什麼區別,後來發現瓶頸在其他地方,寫篇文章來總結一下自己用過的一些小 trick,最後的效果就是在 cifar 上面跑 vgg 的時間從一天縮到了乙個小時,imagene...

深度學習雙顯示卡配置 學習深度學習,如何選購顯示卡?

學習深度學習,顯示卡 gpu 可以說是比不可少的投資。本文試圖 哪個gpu才是學習入門價效比最高的?我們先來比較一下cpu和gpu的不同,下圖是乙個簡化的處理器內部結構圖 1 其中 我們可以很明顯地看出,gpu擁有更多alu,能夠進行強大的計算。cpu是乙個有多種功能的優秀領導者,優點在於排程 管理...

深度學習 如何訓練網路

目的 快速 有效地擬合。手段 隨機批處理 學習率 批規範化 模型優化演算法 遷移學習。隨機批處理,mini batch,一種在模型每輪 epoch 訓練進行前將訓練資料集隨機打亂 shuffle 的 訓練機制。可以防止被模型猜到 出樣本順序 作用 防過擬合。學習率,learning rate,控制模...