可變形卷積網路計算機新「視」界

如同視覺是人們獲取資訊的主要渠道一樣，計算機視覺也是人工智慧研究領域的核心問題之一，已有幾十年的研究歷史。顧名思義，計算機視覺是研究如何讓電腦「看懂」影象，例如，對影象中的物體進行識別、分割、跟蹤和三維幾何測量等。

由於同樣的物體在影象中可能呈現出不同的大小、姿態、視角變化甚至非剛體形變，因此如何適應這些複雜的幾何形變是物體識別的主要難點，同時也是計算機視覺領域多年來關注的核心問題。很多傳統經典方法，如尺度不變的特徵變換（scale invariant feature transform, or sift）和可變形部件模型（deformable part models）等，都旨在解決這一問題。然而，由於人工設計特徵的侷限性，傳統視覺方法在物體識別問題上多年來並未取得突破性的進展。

不久前，微軟亞洲研究院視覺計算組的研究員在arxiv上公布了一篇題為「deformable convolutional networks」（可變形卷積網路）的**，首次在卷積神經網路（convolutional neutral networks，cnn）中引入了學習空間幾何形變的能力，得到可變形卷積網路（deformable convolutional networks），從而更好地解決了具有空間形變的影象識別任務。

研究員們通過大量的實驗結果驗證了該方法在複雜的計算機視覺任務（如目標檢測和語義分割）上的有效性，首次表明在深度卷積神經網路（deep cnn）中學習空間上密集的幾何形變是可行的。該**的源**也於近期在github上公布。

近年來，隨著深度卷積神經網路的普遍使用，很多困難的視覺問題都獲得了重大突破。影象識別於兩年多前首次超越了人類的識別能力。物體檢測、影象分割等也都達到了幾年前傳統方法難以企及的高度。

由於強大的建模能力和自動的端到端的學習方式，深度卷積神經網路可以從大量資料中學習到有效特徵，避免了傳統方法人工設計特徵的弊端。然而，現有的網路模型對於物體幾何形變的適應能力幾乎完全來自於資料本身所具有的多樣性，其模型內部並不具有適應幾何形變的機制。究其根本，是因為卷積操作本身具有固定的幾何結構，而由其層疊搭建而成的卷積網路的幾何結構也是固定的，所以不具有對於幾何形變建模的能力。

舉個例子，想要識別出同一影象中不同大小的物體（比如遠近不同的兩個人），理想的結果是，在對應於每個物體的位置網路需要具有相應大小的感受野（receptive field）。直觀的說，為了識別更大的物體網路需要看到更大的影象區域。然而，在現有的卷積網路架構中，影象中任何位置的感受野大小都是相同的，其取決於事先設定的網路引數（卷積核的大小、步長和網路深度等），無法根據影象內容自適應調整，從而限制了識別精度。

追根溯源，上述侷限來自於卷積網路的基本構成單元，即卷積操作。該操作在輸入影象的每個位置時會進行基於規則格點位置的取樣，然後對於取樣到的影象值做卷積並作為該位置的輸出。通過端到端的梯度反向傳播學習，系統將會得到乙個用矩陣表示的卷積核的權重。這就是自卷積網路誕生之初，已使用二十多年的基本單元結構。

微軟亞洲研究院的研究員們發現，標準卷積中的規則格點取樣是導致網路難以適應幾何形變的「罪魁禍首」。為了削弱這個限制，研究員們對卷積核中每個取樣點的位置都增加了乙個偏移的變數。通過這些變數，卷積核就可以在當前位置附近隨意的取樣，而不再侷限於之前的規則格點。這樣擴充套件後的卷積操作被稱為可變形卷積（deformable convolution）。標準卷積和可變形卷積在圖1中有簡要的展示。

圖1：展示了卷積核大小為 3x3 的正常卷積和可變形卷積的取樣方式，(a) 所示的正常卷積規律的取樣 9 個點（綠點），(b)(c)(d) 為可變形卷積，在正常的取樣座標上加上乙個位移量（藍色箭頭），其中(c)(d) 作為 (b) 的特殊情況，展示了可變形卷積可以作為尺度變換，比例變換和旋轉變換的特殊情況

事實上，可變形卷積單元中增加的偏移量是網路結構的一部分，通過另外乙個平行的標準卷積單元計算得到，進而也可以通過梯度反向傳播進行端到端的學習。加上該偏移量的學習之後，可變形卷積核的大小和位置可以根據當前需要識別的影象內容進行動態調整，其直觀效果就是不同位置的卷積核取樣點位置會根據影象內容發生自適應的變化，從而適應不同物體的形狀、大小等幾何形變，如圖2、圖3中所展示。

圖2：兩層3*3的標準卷積和可變形卷積的區別。(a) 標準卷積中固定的感受野和卷積核取樣點。(b) 可變性卷積中自適應的感受野和卷積核取樣點。

圖 3：更多可變形卷積的示例。每個影象三元組顯示了三層3x3可變形卷積核的取樣點位置（共729個點），對應於三個不同的影象區域（從左至右，背景，小物體，大物體）。

可變形卷積單元具有諸多良好的性質。它不需要任何額外的監督訊號，可以直接通過目標任務學習得到。它可以方便地取代任何已有視覺識別任務的卷積神經網路中的若干個標準卷積單元，並通過標準的反向傳播進行端到端的訓練。由此得到的網路則稱為「可變形卷積網路」。

可變形卷積網路是對於傳統卷積網路簡明而又意義深遠的結構革新，具有重要的學術和實踐意義。它適用於所有待識別目標具有一定幾何形變的任務（幾乎所有重要的視覺識別任務都有此特點，人臉、行人、車輛、文字、動物等），可以直接由已有網路結構擴充而來，無需重新預訓練。它僅增加了很少的模型複雜度和計算量，且顯著提高了識別精度。例如，在用於自動駕駛的影象語義分割資料集（cityscapes）上，可變形卷積神經網路將準確率由70%提高到了75%。

此外，通過增加偏移量來學習幾何形變的思想還可方便地擴充套件到其它計算單元中去。例如，目前業界最好的物體檢測方法都使用了基於規則塊取樣的興趣區域（region of interests, roi）池化（pooling）。在該操作中，對於每個取樣的規則塊增加類似的偏移量，從而得到可變形興趣區域池化 (deformable roi pooling）。由此所獲得的新的物體檢測方法也取得了顯著的效能提公升。

近年來，與神經網路結構相關的研究工作層出不窮，大多是對於各種基本網路單元連線關係的研究。不同於大部分已有的工作，可變形卷積網路首次表明了可以在卷積網路中顯式地學習幾何形變。它修改了已使用二十餘年的基本卷積單元結構，在重要的物體檢測和語義分割等計算機視覺任務上獲得了重大的效能提公升。

可變形卷積網路 計算機新「視」界

可變形卷積網路 計算機新「視」界

可變形卷積網路

可變形卷積網路（HR）

相關推薦

可變形卷積網路計算機新「視」界

可變形卷積網路計算機新「視」界