CPU與GPU效能的比較報告

2021-09-08 14:14:13 字數 753 閱讀 1680

在一塊p100gpu(視訊記憶體16276mib),效能如下:

由上圖可見,隨著程序數目的增大耗時會線性增加。

當然,如果rt滿足要求,卡上可以同時部署其他任務。

intel(r) xeon(r) cpu e5-2620 v3 @ 2.40ghz 24核伺服器下。tf預設為盡可能的占用所有的核,真正的neuron服務也是盡可能的占用所有的核,所以請求量大的時候rt會上公升。

24核伺服器下,qps呈現log趨勢。考慮rt,演算法可以開啟10個程序較優。此時cpu使用率已經逼近2400%。當然如果rt有限制,則採用更小的併發/更多的機器

ps:乙個程序下cpu佔用率1600% 2個併發2000% 3個併發2100% 4個併發2200% 5個併發2250% 6個併發已達2280%。

從另個角度來看,通過改變程序使用的核數統計rt值。這部分和前面cpu部分很類似。

對於這個分類任務,10核以後效能基本不會提公升了(併發就到這水平了)。

如果要保證一定的rt,就要保證每個請求可以拿到足夠多的核

單gpu qps可以達到55;24核cpu的qps可以達到24左右。但是gpu的tr要遠低於cpu,不過gpu併發數上來,rt也會線性增加。

按照目前線上乙個gpu的成本約等於96個cpu核,cpu價效比還是遠優於gpu的

ps:評測中p100效能較好**較貴、cpu e5-2620已經較為(古老)便宜了。

組成 GPU與CPU的比較

不管是cpu還是gpu都是很高速的裝置,然而從主存中取資料會很慢很慢,為了充分利用高速裝置,二者都使用了快取,程式設計一定要考慮的是電腦程式的區域性性 locality 的基本屬性 時間區域性性與空間區域性性。多核時代和gpu並行運算時代來臨,另外乙個影響程式執行的速度的關鍵因素 快取一致性 cac...

Pytorch 比較CPU和GPU的運算速度

在跑神經網路的時候,gpu的作用是很明顯的。下面比較一下cpu跑和gpu跑的區別 先用cpu跑 import torch import time for i in range 1 10 start time time.time 返回當前語句執行時的時間點 單位秒 a torch.rand i 100...

將GPU多執行緒的計算能力與CPU進行比較

include include include cuda runtime.h include device launch parameters.h using namespace std define threadsize 100 define arrsize 100 void addwithcpu...