模型壓縮文章總結

2021-10-25 12:11:41 字數 386 閱讀 6563

1、模型壓縮好文章匯

(tinybert)

在統計學中,均方誤差(英語:mean-square error、mse)是對於無法觀察的引數x的乙個估計函式t;其定義為:

mse(t)=e((x-t)^2)

在文中針對各層介紹了幾種損失函式:

1、embedding層:teacher和student的詞嵌入層的蒸餾均方誤差損失

2、transform層蒸餾:隱層損失和attention損失

3、**層損失,teacher和student的交叉熵損失

模型壓縮總結

常用的模型壓縮技術有 1 奇異值分解 singular value decomposition svd 2 網路剪枝 network pruning 使用網路剪枝和稀疏矩陣 3 深度壓縮 deep compression 使用網路剪枝,數位化和huffman編碼 4 硬體加速器 hardware a...

預模型模型相關文章

預訓練概覽 1 nlp領域的預訓練之風 2 自然語言處理中的語言模型預訓練方法 2 注意力機制 attention 最新綜述 及相關原始碼 3 基於注意力機制,機器之心帶你理解與訓練神經機器翻譯系統 elmo模型 1 elmo 解讀 2 elmo詞向量中文訓練過程雜記 3 利用emlo做預訓練 4 ...

模型壓縮 剪枝

這篇文章是對自己關於模型壓縮進行學習的總結與歸納。在研究模型壓縮這一塊的內容這麼長時間,發現自己不夠深入,有些混亂,因此希望這篇文章可以讓自己的思路更加清晰。模型壓縮的方法中,包括剪枝,量化,多值網路,模型蒸餾等。其中剪枝的方法,應用的更多,此篇文章主要就說剪枝。剪枝最初是在決策樹學習演算法中,用於...