卷積層是卷積神經網路的核心基石。在影象識別裡我們提到的卷積是二維卷積,即離散二維濾波器(也稱作卷積核)與二維影象做卷積操作,簡單的講是二維濾波器滑動到二維影象上所有位置,並在每個位置上與該畫素點及其領域畫素點做內積。卷積操作被廣泛應用與影象處理領域,不同卷積核可以提取不同的特徵,例如邊沿、線性、角等特徵。在深層卷積神經網路中,通過卷積操作可以提取出影象低階到複雜的特徵。
上圖給出乙個卷積計算過程的示例圖,輸入影象大小為h=5,w=5,d=3,即5×5大小的3通道(rgb,也稱作深度)彩色影象。這個示例圖中包含兩(用k表示)組卷積核,即圖中濾波器w0和w1。在卷積計算中,通常對不同的輸入通道採用不同的卷積核,如圖示例中每組卷積核包含(d=3)個3×3(用f×f表示)大小的卷積核。另外,這個示例中卷積核在影象的水平方向(w方向)和垂直方向(h方向)的滑動步長為2(用s表示);對輸入影象周圍各填充1(用p表示)個0,即圖中輸入層原始資料為藍色部分,灰色部分是進行了大小為1的擴充套件,用0來進行擴充套件。經過卷積操作得到輸出為3×3×2(用ho×wo×k表示)大小的特徵圖,即3×3大小的2通道特徵圖,其中ho計算公式為:ho=(h−f+2×p)/s+1,wo同理。 而輸出特徵圖中的每個畫素,是每組濾波器與輸入影象每個特徵圖的內積再求和,再加上偏置bo,偏置通常對於每個輸出特徵圖是共享的。輸出特徵圖o[:,:,0]中的最後乙個−2計算如上圖右下角公式所示。
記住這幾個符號:
在卷積操作中卷積核是可學習的引數,經過上面示例介紹,每層卷積的引數大小為d×f×f×k。卷積層的引數較少,這也是由卷積層的主要特性即區域性連線和共享權重所決定。
通過介紹卷積計算過程及其特性,可以看出卷積是線性操作,並具有平移不變性(shift-invariant),平移不變性即在影象每個位置執行相同的操作。卷積層的區域性連線和權重共享使得需要學習的引數大大減小,這樣也有利於訓練較大卷積神經網路。
整體計算過程如下(與上圖中的資料不同,但是計算過程相同):
池化是非線性下取樣的一種形式,主要作用是通過減少網路的引數來減小計算量,並且能夠在一定程度上控制過擬合。通常在卷積層的後面會加上乙個池化層。池化包括最大池化、平均池化等。其中最大池化是用不重疊的矩形框將輸入層分成不同的區域,對於每個矩形框的數取最大值作為輸出層,如上圖所示。
**:
卷積神經網路介紹
在深度學習出現之前,我們必須借助sift,hog等演算法提取具有良好區分性的特徵,再集合svm等機器學習演算法進行影象識別。sift對一定程度內的縮放 平移 旋轉 視角改變 亮度調整等畸變,都具有不變性。cnn作為乙個深度學習架構被提出的最初訴求,是降低對影象資料 預處理的 要求,以及避免複雜可以的...
卷積神經網路介紹
本文由 翻譯並自行補充而來。cnn是ai發展中最令人振奮的進步之一,早期由yann lecun等人提出。卷積神經網路在2012年被krizhevsky開創性的推廣下,在計算機視覺領域取得了廣泛的成果,並且已經取代了傳統的影象處理技術,成為解決計算機視覺問題的最新技術。cnn也正在被研究和應用於其他領...
卷積神經網路的介紹
本章節將介紹一種全新結構的神經網路 卷積神經網路 convolutional neural network,cnn 它是一種前饋神經網路,可以應用到很多場合,比如影象處理,自然語言處理,災難氣候 等等,但是最主要還是應用在影象領用,近幾年來在自然語言處理方面,cnn也應用得越來越多。卷積神經網路結構...