VGG16 用於分類和檢測的卷積網路

2021-09-25 03:57:11 字數 2199 閱讀 9466

vgg16是由牛津大學的k. simonyan和a. zisserman在「用於大規模影象識別的非常深卷積網路」的**中提出的卷積神經網路模型。 該模型在imagenet中實現了92.7%的前5個測試精度,這是屬於1000個類的超過1400萬張影象的資料集。它是ilsvrc-2014提交的著名模型之一。它通過乙個接乙個地用多個3×3核心大小的過濾器替換大型核心大小的過濾器(分別在第乙個和第二個卷積層中為11和5)來改進alexnet。vgg16訓練了幾周,並使用nvidia titan black gpu。

imagenet是乙個超過1500萬個標記的高解析度影象的資料集,屬於大約22,000個類別。這些影象是從網上收集的,並由人類貼標機使用亞馬遜的mechanical turk眾包工具進行標記。從2023年開始,作為pascal視覺物件挑戰賽的一部分,舉辦了名為imagenet大規模視覺識別挑戰賽(ilsvrc)的年度比賽。ilsvrc使用imagenet的乙個子集,在1000個類別中分別擁有大約1000個影象。總之,大約有120萬個訓練影象,50,000個驗證影象和150,000個測試影象。imagenet由可變解析度影象組成。因此,影象已被下取樣到256×256的固定解析度。給定矩形影象,影象被重新縮放並從結果影象中裁剪出中心256×256色塊。

下面描述的架構是vgg16。

vgg16架構

cov1層的輸入是固定大小的224 x 224 rgb影象。影象通過一堆卷積**換)層,其中濾鏡使用非常小的感受野:3×3(這是捕捉左/右,上/下,中心概念的最小尺寸)。在其中一種配置中,它還使用1×1卷積濾波器,可以看作是輸入通道的線性變換(後面是非線性)。卷積步幅固定為1個畫素; 轉換的空間填充。層輸入使得在卷積之後保留空間解析度,即,對於3×3轉換,填充是1畫素。層。空間池由五個最大池組執行,這些層跟隨一些轉換。圖層(並非所有轉換圖層都跟隨最大池)。最大池化在2×2畫素視窗上執行,

三個完全連線(fc)層跟隨一堆卷積層(在不同架構中具有不同的深度):前兩個每個具有4096個通道,第三個執行1000路ilsvrc分類,因此包含1000個通道(每個乙個類)。最後一層是soft-max層。全連線層的配置在所有網路中都是相同的。

所有隱藏層都配備有整流(relu)非線性。還注意到,沒有乙個網路(除了乙個)包含本地響應標準化(lrn),這種標準化不會改善ilsvrc資料集的效能,但會導致記憶體消耗和計算時間增加。

convnet配置如圖02所示。網路的名稱(ae)。所有配置均遵循架構中存在的通用設計,僅在深度上有所不同:從網路a中的11個權重層(8個轉換層和3個fc層)到網路e中的19個權重層(16個轉換層和3個fc層) 。轉的寬度。層(通道數)相當小,從第一層中的64開始,然後在每個最大池層之後增加2倍,直到達到512。

圖:2不幸的是,vggnet有兩個主要缺點:

這是  痛苦的緩慢  訓練。

網路體系結構權重本身非常大(涉及磁碟/頻寬)。

由於其全部連線節點的深度和數量,vgg16超過533mb。這使得部署vgg成為一項令人厭煩的任務.vgg16用於許多深度學習影象分類問題; 但是,較小的網路架構通常更為理想(例如squeezenet,googlenet等)。但它是乙個很好的學習目標,因為它很容易實現。

[ pytorch ]

[ tensorflow ]

[ keras ]

vgg16在ilsvrc-2012和ilsvrc-2013競賽中明顯優於上一代機型。vgg16的結果也在爭奪分類任務獲勝者(googlenet的誤差為6.7%),並且大大優於ilsvrc-2013獲勝提交的clarifai,其中外部培訓資料達到11.2%,沒有它的11.7%。關於單網效能,vgg16架構實現了最佳結果(7.0%測試錯誤),優於單個googlenet 0.9%。

已經證明,表示深度有利於分類準確性,並且可以使用具有顯著增加的深度的傳統convnet架構來實現imagenet挑戰資料集上的最新效能。

經典卷積神經網路之 VGG16

命名 16表示除pooling layer外使用conv layer的層數 1.vggnet探索了卷積神經網路的深度與其效能之間的關係,通過反覆堆疊3 3的小型卷積核和2 2的最大池化層,vggnet成功地構築了16 19層深的卷積神經網路 2.vggnet結構簡潔,整個網路都使用了同樣大小的卷積核...

深入理解卷積神經網路 VGG16

二 分析 vgg16 的過程 三 理解神經網路 vgg 16 四 用vgg16 來做乙個影象識別案例 vgg是由simonyan 和zisserman在文獻 very deep convolutional networks for large scale image recognition 中提出卷...

vgg16測試模型的實現

vgg 16又稱為oxfordnet,是由牛津視覺幾何組 visual geometry group 開發的卷積神經網路結構。vgg在2014年的 ilsvrc localization and classification 兩個問題上分別取得了第一名和第二名 原標題 very deep convo...