1、模型壓縮好文章匯
(tinybert)
在統計學中,均方誤差(英語:mean-square error、mse)是對於無法觀察的引數x的乙個估計函式t;其定義為:
mse(t)=e((x-t)^2)
在文中針對各層介紹了幾種損失函式:
1、embedding層:teacher和student的詞嵌入層的蒸餾均方誤差損失
2、transform層蒸餾:隱層損失和attention損失
3、**層損失,teacher和student的交叉熵損失
模型壓縮總結
常用的模型壓縮技術有 1 奇異值分解 singular value decomposition svd 2 網路剪枝 network pruning 使用網路剪枝和稀疏矩陣 3 深度壓縮 deep compression 使用網路剪枝,數位化和huffman編碼 4 硬體加速器 hardware a...
預模型模型相關文章
預訓練概覽 1 nlp領域的預訓練之風 2 自然語言處理中的語言模型預訓練方法 2 注意力機制 attention 最新綜述 及相關原始碼 3 基於注意力機制,機器之心帶你理解與訓練神經機器翻譯系統 elmo模型 1 elmo 解讀 2 elmo詞向量中文訓練過程雜記 3 利用emlo做預訓練 4 ...
模型壓縮 剪枝
這篇文章是對自己關於模型壓縮進行學習的總結與歸納。在研究模型壓縮這一塊的內容這麼長時間,發現自己不夠深入,有些混亂,因此希望這篇文章可以讓自己的思路更加清晰。模型壓縮的方法中,包括剪枝,量化,多值網路,模型蒸餾等。其中剪枝的方法,應用的更多,此篇文章主要就說剪枝。剪枝最初是在決策樹學習演算法中,用於...