剪枝系列1 AutoPruner

這是此系列第一篇部落格，也是我的第一篇部落格，可能許多地方寫的簡略。主要目的是記錄一下看過的**，以後自己要用到的時候可以快速了解這篇**的主要思想。

autopruner: an end-to-end trainable filter pruning method for efficient deep model inference是2023年南京大學的一篇文章，算是比較新的剪枝演算法吧。這幾年在剪枝方面出了很多思路，比如三階段法（train-prune-finetune），邊訓練邊剪法，逐層剪還是所有層同時剪，一次性剪還是每次剪，或者有人直接質疑剪枝的必要性，認為直接訓練小模型效果並不差。但是總體來說，主要還是圍繞著channel pruning（filter pruning）來展開。最傳統的也是最簡單的方法是，根據每一層自己的卷積核的引數，設計準則去掉被判斷為不重要的channel，有l1準則，泰勒展開準則，gm和repr準則；其他做法比如thinet是根據下一層的輸出來判斷本層的重要性；還有的剪枝演算法關注每層剪枝率的設定，用了強化學習的方法來找出最佳剪枝率；也有的希望在訓練時通過修改損失函式來訓練出冗餘卷積核的。

本篇**，是乙個通道剪枝+邊剪枝邊finetune+逐層剪枝+非人工準則的方法。（兩階段，訓練階段還是要的，只是剪枝和finetune結合到一起了）

方法如下：對每一層，新增一層編碼層，設定損失函式來使得編碼層輸出為0,1的向量，並且1的數量滿足剪枝率。編碼層的輸出會和原來的層相乘，訓練結束後，0對應的通道被直接拿掉，不用再另外finetune。

但是這個方法有乙個控制收斂到0,1的引數α

\alpha

α特別不好設定。每種網路、每個層的α

\alpha

α都不一樣。特別不方便。而損失函式是用來控制稀疏程度的。還有編碼層的初始化也比較難搞。

總之，可以借鑑的地方是編碼層0,1來代表剪枝與否的思想，以及用損失函式控制稀疏度的思想，還有把finetune和剪枝合到一起的思想。但是逐層剪真的不提倡。

好像沒有開源**。

剪枝系列1 AutoPruner

搜尋（1）剪枝

實習系列1

排版系列1

剪枝系列1 AutoPruner

搜尋（1） 剪枝

實習系列1

排版系列1

相關推薦

搜尋（1）剪枝