神經網路壓縮之低位元量化的優劣分析

2021-10-01 22:20:37 字數 518 閱讀 7549

加快推理速度:

1)8 位的訪問次數要比 32 位多,在讀取 8 位整數時只需要 32 位浮點數的 1/4 的記憶體頻寬,例如,在 32 位記憶體頻寬的情況下,8 位整數可以一次訪問 4 個,32 位浮點數只能 1 次訪問 1 個。而且使用 simd 指令(19.2節會加速介紹該指令集),可以在乙個時鐘週期裡實現更多的計算。另一方面,8 位對嵌入式裝置的利用更充分,因為很多嵌入式晶元都是 8 位、16 位的,如微控制器、數字訊號處理器(dsp 晶元)。

2)整型運算通常比浮點型運算更快。

降低裝置功耗:記憶體耗用少了推理速度快了自然減少了裝置功耗

支援定製處理器:硬體設計可結合8bit方案做優化,如npu,fpga等

模型量化增加了操作複雜度,在量化時需要做一些特殊的處理,否則精度損失更嚴重

模型量化會損失一定的精度,雖然在微調後可以減少精度損失,但推理精度確實下降

深度神經網路壓縮

目前深度學習模型壓縮方法的研究主要可以分為以下幾個方向 更精細模型的設計,目前的很多網路都具有模組化的設計,在深度和寬度上都很大,這也造成了引數的冗餘很多,因此有很多關於模型設計的研究,如squeezenet mobilenet等,使用更加細緻 高效的模型設計,能夠很大程度的減少模型尺寸,並且也具有...

學習向量量化神經網路

在競爭網路結構的基礎上,學習向量化 learning vector quantization,lvq 網路被提出來,融合競爭學習思想和有監督學習演算法的特點,通過教師訊號對輸入樣本的分配類別進行規定,從而克服自組織網路採用無監督學習演算法帶來的缺乏分類資訊的弱點。向量量化的思路是,將高維輸入空間分成...

淺層神經網路的向量化實現

基於ng課程的淺層神經網路向量化python實現。模型 其中,output layer與圖中不同,只有乙個output node。usr bin env python coding utf 8 import numpy as np class smallneuralnetwork object de...