定義:卷積神經網路中每層卷積層(convolutional layer)由若干卷積單元組成,每個卷積單元的引數都是通過反向傳播演算法最佳化得到的。卷積運算的目的是提取輸入的不同特徵,第一層卷積層可能只能提取一些低階的特徵如邊緣、線條和角等層級,更多層的網路能從低階特徵中迭代提取更複雜的特徵。
卷積神經網路中,通過輸入卷積核來進行卷積操作,使輸入單元(或影象或特徵對映)和輸出單元(特徵對映)之間的連線是稀疏的,這樣能夠減少需要訓練引數的數量,從而加快網路的計算速度。
卷積操作的引數共享特點,主要提現在模型中同一組引數可以被多個函式或者操作共同使用。在卷積神經網路中,針對不同的輸入會利用同樣的卷積核來獲得相應的輸出。這種引數共享的特點是只需要訓練乙個特徵集。由於卷積核尺寸可以遠小於輸入尺寸,即減少需要學習的引數的數量,並且針對每個卷積層可以使用多個卷積核獲取輸入的特徵對映,對資料具有很強的特徵提取能力,並且在卷積運算之後,使得卷積神經網路結構對輸入的影象具有平移不變的性質
在pytorch中對於不同使用場景有不同的卷積演算法,有一維卷積、二維卷積、三維卷積與轉置卷積,下面以二維卷積使用為例來介紹其詳細使用方法:
使用方法:
以書上torch.nn.conv2d( in_channels ,
out_channels ,
kernel_size ,
stride=1 ,
padding= 0 ,
dilation=1 ,
groups=1 ,
bias=true) 為例展開介紹
in_channels :(整數)輸入影象的通道數。
out_channels:(整數)經過卷積運算後,輸出特徵對映的數量。
kernel_size :(整數或者陣列)卷積核的大小。
stride:(整數或者陣列,正數)卷積的步長,預設為1.
padding:(整數或者陣列,正數)在輸入兩邊進行0填充的數量,預設為0。
dilation:(整數或者陣列,正數)卷積核之間的步幅,該引數可調整為空洞卷積的空洞大小,預設為1。
groups:(整數,正數)從輸入通道到輸出通道的阻塞連線數。
bias:(布林值,正數)如果是bias=true,則新增偏置,預設為true。
輸出尺寸的計算方法:
高h_out = (h_in+2*padding[0]-dilation[0]*(kernel_size[0]-1)-1) / stride[0]
寬w_out = (w_out+2*padding[1]-dilation[1]*(kernel_size[1]-1)-1) / stride[1]
通道數:
解釋一根據photoshop上解釋:在photoshop中有乙個很重要概念叫影象通道,在rgb色彩模式下就是指那單獨的紅色、綠色、藍色部分。也就是說,一幅完整的影象,是由紅色綠色藍色三個通道組成的。他們共同作用產生了完整的影象。
原圖(rgb):
單通道影象:
灰度中越偏白的部分,表示色光亮度值越高,越偏黑的部分則表示亮度值越低。純白亮度級是0,純黑亮度級是255
解釋二(詳細見這裡:點選這裡)
通道作為圖象的組成部分,是與圖象的格式密不可分的,圖象顏色、格式的不同決定了通道的數量和模式,在通道面板中可以直觀的看到 在photoshop中涉及的通道主要有:
⑴ 復合通道(compound channel) 復合通道不包含任何資訊,實際上它只是同時預覽並編輯所有顏色通道的乙個快捷方式。它通常被用來在單獨編輯完乙個或多個顏色通道後使通道面板返回到它的預設狀態。對於不同模式的圖象,其通道的數量是不一樣的。在photoshop之中,通道涉及三個模式。對於乙個rgb圖象,有rgb、r、g、b四個通道;對於乙個cmyk 圖象,有cmyk、c、m、y、k五個通道;對於乙個lab模式的圖象,有lab、l、a、b四個通道。
⑵ 顏色通道(color channel) 當你在photoshop中編輯圖象時,實際上就是在編輯顏色通道。這些通道把圖象分解成乙個或多個色彩成分,圖象的模式決定了顏色通道的數量,rgb模式有3個顏色通道,cmyk圖象有4個顏色通道,灰度圖只有乙個顏色通道,它們包含了所有將被列印或顯示的顏色。
⑶ 專色通道(spot channel) 專色通道是一種特殊的顏色通道,它可以使用除了青色、洋紅(有人叫品紅)、黃色、黑色以外的顏色來繪製圖象。因為專色通道一般人用的較少且多與列印相關,所以我把它放在後面的內容中講述。
⑸ 單色通道 這種通道的產生比較特別,也可以說是非正常的。試一下,如果你在通道面板中隨便刪除其中乙個通道,就會發現所有的通道都變成「黑白」的,原有的彩色通道即使不刪除也變成灰度的了。因此顯而易見 ,是沒有影象通道的,他只是歸於通道的一種屬性。
全連線層與卷積層(總結)
全連線鞥 卷積層全連線層是使用影象的全域性資訊,全連線層的權重是固定的,要求輸入的feature map的大小也有要求,所以網路開始輸入影象的大小要固定。全連線層的每乙個節點都有上一層的所有節點相連。卷積層取區域性特徵,不需要固定輸入的大小,因為它是對區域性區域進行視窗滑動。例如 feature m...
反卷積層(轉置卷積)
反卷積 deconvolution 不是數字訊號處理裡面的意義,在深度學習裡面應該叫做轉置卷積 transposed convolution 又名微步卷積 fractionally strided convolutions 也有叫backward strided convolution upconv...
卷積神經網路 卷積層
1 2 該部落格主要是對網上知識點的學習和整理,方便日後複習。侵刪。卷積神經網路 cnn 一般由輸入層 卷積層 啟用函式 池化層 全連線層組成,即input 輸入層 conv 卷積層 relu 啟用函式 pool 池化層 fc 全連線層 當我們給定乙個 x 的圖案,計算機怎麼識別這個圖案就是 x 呢...