vgg是由simonyan 和zisserman在文獻《very deep convolutional networks for large scale image recognition》中提出卷積神經網路模型,其名稱**於作者所在的牛津大學視覺幾何組(visual geometry group)的縮寫。
該模型參加2023年的 imagenet影象分類與定位挑戰賽,取得了優異成績:在分類任務上排名第二,在定位任務上排名第一。這就是說vgg模型能夠很好的適用於分類和定位任務。
可能大家會想,這樣乙個這麼強的模型肯定很複雜吧?
其實一點也不複雜,它的結構如下圖所示:
這是乙個vgg被用到爛的圖,但確實很好的反應了vgg的結構:
**1、一張原始被resize到(224,224,3)。
2、conv1兩次[3,3]卷積網路,輸出的特徵層為64,輸出為(224,224,64),再2x2最大池化,輸出net為(112,112,64)。
3、conv2兩次[3,3]卷積網路,輸出的特徵層為128,輸出net為(112,112,128),再2x2最大池化,輸出net為(56,56,128)。
4、conv3三次[3,3]卷積網路,輸出的特徵層為256,輸出net為(56,56,256),再2x2最大池化,輸出net為(28,28,256)。
5、conv4三次[3,3]卷積網路,輸出的特徵層為256,輸出net為(28,28,512),再2x2最大池化,輸出net為(14,14,512)。
6、conv5三次[3,3]卷積網路,輸出的特徵層為256,輸出net為(14,14,512),再2x2最大池化,輸出net為(7,7,512)。
7、利用卷積的方式模擬全連線層,效果等同,輸出net為(1,1,4096)。共進行兩次。
8、利用卷積的方式模擬全連線層,效果等同,輸出net為(1,1,1000)。
**不通結構卷積網路配置平鋪圖(重點關注結構d即vgg16):
在訓練期間,convnets的輸入是固定大小的224×224 rgb影象。 唯一預處理是從每個畫素中減去在訓練集上計算的平均rgb值,(eg:vgg16是:vgg_mean = tf.constant([123.68, 116.779, 103.939], dtype=tf.float32))處理時候轉換成了rgb→bgr格式。
影象通過一堆卷積**換)層,使用具有非常小的感知域的濾波器(卷積核): 3×3(這是捕捉左/右,上/下,中心概念的最小尺寸)。 在配置c的rgg16中,我們還使用1×1卷積濾波器,可以看作是輸入通道的線性變換(後面是非線性)。
卷積步幅固定為1個畫素; 卷積層輸入的空間填充使得在卷積之後保持空間解析度,即對於3×3個卷積層,填充是1個畫素。 空間池由五個最大池組執行,這些層跟隨一些轉換。 圖層(並非所有轉換圖層都跟隨最大池)。 最大池化在2×2畫素視窗上執行,步幅為2。
卷積層(在不同的體系結構中具有不同的深度)的stack之後是三個完全連線(fc)層:前兩個層各有4096個通道,第三個層執行1000路ilsvrc分類,因此包含1000個通道(每個類乙個)。最後一層是soft-max層。在所有網路中,完全連線層的配置是相同的。所有隱藏層都具有整流(relu)非線性特性。網路(除了乙個)都不包含本地響應規範化(lrn)規範化,因為作者嘗試了這種規範化不會提高ilsvrc資料集的效能,但會增加記憶體消耗和計算時間。
the convolutional layer parameters are denoted as 「conv receptive field size - number of channels 」
vgg有五種模型:abcde,d就是vgg16,e就是vgg19。19層數的計算是conv層+fc。
卷積:conv:f=33,s=11,p=11;maxpool: f=22,s=2*2,p=0
**卷積核:**是每stack層卷積核的個數3×3
**特徵層數:**由首階段64,逐層增一倍至512
VGG16模型理解
vgg16作為很入門的cnn網路,同時也有很多基於vgg16的改進網路,比如用於語義分割的segnet等。1 輸入224x224x3的,經過64個卷積核的兩次卷積後,採用一次pooling。經過第一次卷積後,c1有 3x3x3 個可訓練引數 2 之後又經過兩次128的卷積核卷積之後,採用一次pool...
vgg16測試模型的實現
vgg 16又稱為oxfordnet,是由牛津視覺幾何組 visual geometry group 開發的卷積神經網路結構。vgg在2014年的 ilsvrc localization and classification 兩個問題上分別取得了第一名和第二名 原標題 very deep convo...
VGG16網路模型
該網路提出了卷積神經網路的深度增加和小卷積核的使用對網路的最終分類識別效果有很大的作用。後兩個網路對卷積核的開刀的優化方法也證明了這一觀點。在 的實驗中,證明了在大規模影象識別任務中卷積神經網路的深度對準確率的影響。主要的貢獻是利用帶有很小卷積核 3 3 的網路結構對逐漸加深的網路進行評估,結果表明...