神經網路加速引擎對比調研

2022-09-06 20:21:10 字數 2114 閱讀 2564

引擎名稱

mnntensorrt

tf2ncnn

paddle lite

tengine

mobileaibench

open vino

開源機構

訓練框架

tensorflow(lite)/

caffe/onnx

tensorflow/caffe/

onnx/pytorch/

mxnet/theano

/paddlepaddle

pytorch/tensorflow

/caffe

caffe/onnx/

pytorch/mxnet

tensorflow/

caffe/onnx/ paddlepaddle

caffe / onnx / tensorflow (lite) / mxnet

mace/snpe/

ncnn/

tensorflow lite

caffe/tensorflow/

kaldi/mxnet/onnx

模型量化有有

有有有有

--輸入浮點型別

浮點型別

fp32

浮點型別

fp32

fp32--

計算int8

fp32/fp16/int8(可指定)

int8

int8

int8

fp32/fp16/int8--

輸出浮點型別

浮點型別

fp32

浮點型別

fp32

fp32--

微調finetune有-

----

--winograd

卷積演算法有-

----

--語言支援

c++/python

c++/python

python

c ++

c++/python/j**a

c ++/python

c/c++ python

python /c ++

常用嵌入部署平台

mobile phone/arm

雲部署/嵌入平台 jetson + gpu

fpga

jetson/arm cortex-a/hisilicon/ mobile phone

cuda/fpga/npu

arm v8/fpga

mobile phones/

iot devices.

fpga/ igpu/vpu

記憶體分配

可以可以--

----

效能表現

(ms)

squeezenet

(mi 6)

65.47ms

vgg80ms

squeezenet

(f10a)

0.164ms

-squeezenet

(驍龍845 armv7)

37.15ms

squeezenet

(cortex-a72)

44.6ms

-squeezenet

(至強)

0.001ms

開源時間

2019.05

2019.09

2018.08

2017.07

2019.08

2018.10

2018.08

2018.05

合作者天貓、優酷

ibm\volvo

intel/快手--

nju/zju--

star數

3.7k

2.1k

648.4k

4.9k

1.1k

2461.1k

神經網路對比

層數固定不變 層數可以變化 11行神經網路 固定三層,兩類 只適合 0,1 兩類。若不是,要先轉化 import numpy as np x np.array 0,0,1 0,1,1 1,0,1 1,1,1 y np.array 0,1,1,0 reshape 1,1 此處reshape是為了便於演...

神經網路對比

層數固定不變 層數可以變化 11行神經網路 固定三層,兩類 只適合 0,1 兩類。若不是,要先轉化 import numpy as np x np.array 0,0,1 0,1,1 1,0,1 1,1,1 y np.array 0,1,1,0 reshape 1,1 此處reshape是為了便於演...

神經網路加速指南

分析各步驟耗時 1 cpu上的操作耗時 嘗試將操作放在gpu上進行,如np.argmax的操作 2 cpu 耗時 嘗試減少傳輸tensor的大小 3 資料預處理耗時 1 resample操作嘗試放到gpu上處理?2 先crop後resample?4 呼叫不同的包耗時不同 如scipy skimage...