續接上文，關於深度可分離卷積與傳統卷積的一點思考

關於深度可分離卷積（dsc）與傳統卷積間差別的一點點思考，望各位大佬指正。

dsc是將conv對spatial（receptive-field-wise）和semantic（channel-wise）的同時學習給一分為二了。

在分開的這兩個階段中，stage 1. depthwise conv用通道為1的多個「薄」卷積核僅學習各個input通道上的空間特徵；stage 2. pointwise conv，也即1 *1 conv或者pixelwise conv，用多個這樣的「厚」且「尖」的卷積核逐點進行channel manipulation，即由input channel數向output channel數的轉化。

相比之下，dsc之所以可以降低params，是因為迴避了（k * k） *（ m * n）這個大連乘。前乙個括號中是spatial-wise，後乙個括號中是semantic-wise operations。要知道，m * n在乙個很深的網路中將會是乙個非常的的數字。

dsc所涉及的引數量變為，（k * k * m) + （1 * 1 * m * n），前乙個括號是stage 1 spatial conv，後乙個括號是是stage 2 semantic conv。可見，k * k僅連乘了m，而將m * n這個負擔交給 1 * 1 來弱化，變k * k 與 m * n之間的乘法為加法。

引數減少，dsc的filter能夠capture、learn、extract的feature就變弱了。why？因為傳統conv的filter所學得的feature是立體的、即有空間描述，又有語義深度，即，filter本身就是乙個k * k * m的tensor，它所表徵represent的特徵一定更為豐富。反觀dsc中，一不存在完整的k * k * m的filter，只有分開的k * k * 1 filter和1 * 1 * m filter。這種割裂、強行分離，破壞了cnn本質的compositional屬性。上一層得到的m-channel的feature作為本層的輸入，應當被一次性地用乙個compact的filter去學習其中蘊含的spatial-semantic特徵，而非先spatial後semantic。

僅僅是個人的理解和主觀臆斷，大佬們見笑了 : d.

續接上文，關於深度可分離卷積與傳統卷積的一點思考

深度可分離卷積

深度可分離卷積

深度可分離卷積

相關推薦