VGG16模型訓練自己資料集

vgg是由simonyan 和zisserman在文獻《very deep convolutional networks for large scale image recognition》中提出卷積神經網路模型，其名稱**於作者所在的牛津大學視覺幾何組(visual geometry group)的縮寫。

該模型參加2023年的 imagenet影象分類與定位挑戰賽，取得了優異成績：在分類任務上排名第二，在定位任務上排名第一。這就是說vgg模型能夠很好的適用於分類和定位任務。

可能大家會想，這樣乙個這麼強的模型肯定很複雜吧？

其實一點也不複雜，它的結構如下圖所示：

這是乙個vgg被用到爛的圖，但確實很好的反應了vgg的結構：

**1、一張原始被resize到(224,224,3)。

2、conv1兩次[3,3]卷積網路，輸出的特徵層為64，輸出為(224,224,64)，再2x2最大池化，輸出net為(112,112,64)。

3、conv2兩次[3,3]卷積網路，輸出的特徵層為128，輸出net為(112,112,128)，再2x2最大池化，輸出net為(56,56,128)。

4、conv3三次[3,3]卷積網路，輸出的特徵層為256，輸出net為(56,56,256)，再2x2最大池化，輸出net為(28,28,256)。

5、conv4三次[3,3]卷積網路，輸出的特徵層為256，輸出net為(28,28,512)，再2x2最大池化，輸出net為(14,14,512)。

6、conv5三次[3,3]卷積網路，輸出的特徵層為256，輸出net為(14,14,512)，再2x2最大池化，輸出net為(7,7,512)。

7、利用卷積的方式模擬全連線層，效果等同，輸出net為(1,1,4096)。共進行兩次。

8、利用卷積的方式模擬全連線層，效果等同，輸出net為(1,1,1000)。

**不通結構卷積網路配置平鋪圖（重點關注結構d即vgg16）：

在訓練期間，convnets的輸入是固定大小的224×224 rgb影象。唯一預處理是從每個畫素中減去在訓練集上計算的平均rgb值，(eg:vgg16是：vgg_mean = tf.constant([123.68, 116.779, 103.939], dtype=tf.float32)）處理時候轉換成了rgb→bgr格式。

影象通過一堆卷積**換）層，使用具有非常小的感知域的濾波器(卷積核)： 3×3（這是捕捉左/右，上/下，中心概念的最小尺寸）。在配置c的rgg16中，我們還使用1×1卷積濾波器，可以看作是輸入通道的線性變換（後面是非線性）。

卷積步幅固定為1個畫素; 卷積層輸入的空間填充使得在卷積之後保持空間解析度，即對於3×3個卷積層，填充是1個畫素。空間池由五個最大池組執行，這些層跟隨一些轉換。圖層（並非所有轉換圖層都跟隨最大池）。最大池化在2×2畫素視窗上執行，步幅為2。

卷積層(在不同的體系結構中具有不同的深度)的stack之後是三個完全連線(fc)層:前兩個層各有4096個通道，第三個層執行1000路ilsvrc分類，因此包含1000個通道(每個類乙個)。最後一層是soft-max層。在所有網路中，完全連線層的配置是相同的。所有隱藏層都具有整流(relu)非線性特性。網路(除了乙個)都不包含本地響應規範化(lrn)規範化，因為作者嘗試了這種規範化不會提高ilsvrc資料集的效能，但會增加記憶體消耗和計算時間。

the convolutional layer parameters are denoted as 「conv receptive field size - number of channels 」

vgg有五種模型:abcde，d就是vgg16，e就是vgg19。19層數的計算是conv層+fc。

卷積：conv：f=33，s=11，p=11；maxpool: f=22，s=2*2，p=0

**卷積核：**是每stack層卷積核的個數3×3

**特徵層數：**由首階段64，逐層增一倍至512

VGG16模型訓練自己資料集

VGG16模型理解

vgg16測試模型的實現

VGG16網路模型

VGG16模型訓練自己資料集

VGG16模型理解

vgg16測試模型的實現

VGG16網路模型

相關推薦