金字塔池化系列的理解SPP ASPP

2021-09-29 19:18:13 字數 2121 閱讀 5649

在spp出來之前,所有神經網路都是要輸入固定尺寸的,比如經常遇到的224×224,輸入網路前都要resize到224×224,導致變形,其中的資訊也變形了,從而限制了識別精度。

而spp和aspp就是為了解決這個問題,它可以讓網路輸入原圖而不必resize。

剛看到這張結構圖,很多同學可能和我一樣懵(原諒我比較笨),別的部落格裡配的文字也都是比較簡單,有些詞彙不夠通俗,直到我看到了下面這張圖:

(1)直接對整個特徵圖池化,每一維得到乙個池化後的值,構成乙個1x256的向量

(2)將特徵圖分成2x2共4份,每份單獨進行池化,得到乙個1x256的向量,最終得到2x2=4個1x256的向量

(3)將特徵圖分成4x4共16份,每份單獨進行池化,得到乙個1x256的向量,,最終得到4x4=16個1x256的向量

將三種劃分方式池化得到的結果進行拼接,得到(1+4+16)256=21256的特徵。

由圖中可以看出,整個過程對於輸入的尺寸大小完全無關,因此可以處理任意尺寸的候選框。

空間池化層實際就是一種自適應的層,這樣無論你的輸入是什麼尺寸,輸出都是固定的(21xchannel)

在介紹aspp之前,首先要介紹atrous convolution(空洞卷積),它是一種增加感受野的方法。空洞卷積是是為了解決基於fcn思想的語義分割中,輸出影象的size要求和輸入影象的size一致而需要upsample,但由於fcn中使用pooling操作來增大感受野同時降低解析度,導致upsample無法還原由於pooling導致的一些細節資訊的損失的問題而提出的。為了減小這種損失,自然需要移除pooling層,因此空洞卷積應運而生。

普通卷積這裡就不介紹了,我們來看一下空洞卷積的動態圖,就一目了然了:

空洞卷積從字面上很好理解,是在標準的卷積中注入空洞,以此來增加感受野,相比原來的正常卷積,空洞卷積多了乙個稱之為 dilation rate 的引數,指的是kernel的間隔數量(一般的卷積 dilation rate=1)。

但是,空洞卷積也有其潛在的一些問題:

潛在問題 1:the gridding effect

假設我們僅僅多次疊加 dilation rate 2 的 3 x 3 kernel 的話,則會出現這個問題:

我們發現 kernel 並不連續,也就是並不是所有的 pixel 都用來計算了,因此這裡將資訊看做 checker-board 的方式會損失資訊的連續性。這對 pixel-level dense prediction 的任務來說是致命的。

潛在問題 2:long-ranged information might be not relevant.

我們從 dilated convolution 的設計背景來看就能推測出這樣的設計是用來獲取 long-ranged information。然而光採用大 dilation rate 的資訊或許只對一些大物體分割有效果,而對小物體來說可能則有弊無利了。如何同時處理不同大小的物體的關係,則是設計好 dilated convolution 網路的關鍵。

hdc(hybrid dilated convolution)

針對以上幾個問題,圖森組的文章對其提出了較好的解決的方法。他們設計了乙個稱之為 hdc 的設計結構。

它有幾個特性,可以從一定程度上解決上述問題。這裡咱不討論。我們可以從一張圖來對比一下正常空洞卷積與hdc的效果:

可以看到經過卷積之後,hdc能夠獲得更多的影象資訊,不會出現像正常空洞卷積一樣的小方塊。

atrous spatial pyramid pooling (aspp)

首先看一下aspp的結構圖

這裡設計了幾種不同取樣率的空洞卷積來捕捉多尺度資訊,但我們要明白取樣率(dilation rate)並不是越大越好,因為取樣率太大,會導致濾波器有的會跑到padding上,產生無意義的權重,因此要選擇合適的取樣率。

空間金字塔池化SPP

空間金字塔池化,使得任意大小的特徵圖都能夠轉換成固定大小的特徵向量,送入全連線層。對特徵圖尺寸有要求的部分就是從卷積層到全連線層過渡的那裡。因為全連線層y w x,w是固定的。我們假設乙個很簡單兩層網路 輸入一張任意大小的,假設其大小為 w,h 輸出21個神經元。也就是我們輸入一張任意大小的特徵圖的...

我理解的學習金字塔

我們先簡單介紹一下學習金字塔 最早是由美國學者 著名的學習專家愛德加 戴爾1946年首先發現並提出的。它用數字形式形象顯示了 採用不同的學習方式,學習者在兩周以後還能記住內容 平均學習保持率 的多少。它是一種現代學習方式的理論。最終總結一下學習的過程 學 辯 授。我們大部分都在閉門造車,學習的時候都...

通往成功的金字塔

在我看來,通往成功 的金字塔是由它們組成的 1.態度 2.方法 3.目標 4.策略 5.戰術 6.執行 我們把所有的時間都花在執行 上,碌碌無為,斤斤計較那些瑣碎的細節。你發現了沒有 沒有人因為執行 傻瓜 指南上的方法而成功。譯註 dummies叢書,是國外一種流行的指南叢書 戰術只是告訴你應該做什...