****:
****:
asdn網路使用roi池層提取的功能作為輸入影象補丁。 asdn網路比**遮擋/退出掩碼,然後將其用於丟棄特徵值並傳遞到fast-rcnn的分類塔。對抗空間丟棄網路(asdn),它學習如何封閉給定的目標,使得frcn難以對其進行分類。我們在本文中考慮的第二種型別的生成是變形。在這種情況下,我們提出了對抗空間變換網路(astn),它學習如何旋轉物體的「部件」,使其難以被檢測器識別。通過與這些網路的競爭和克服障礙,frcn學會以魯棒的方式處理物體遮擋和變形。請注意,所提出的網路asdn和astn在訓練期間與frcn一起同時學習。聯合訓練能防止檢測器對固定生成的特徵產生過擬合。
相比於在輸入影象上產生遮擋和變形,我們發現在特徵空間上的操作更有效率。因此,我們設計對抗網路來修改特徵,使目標變得更難識別。請注意,這兩個網路僅在訓練過程中應用才能改進檢測器。我們將首先單獨介紹asdn和astn,然後在統一的框架中將它們組合在一起。在roi-pooling層之後獲得每個前景目標候選區域的卷積特徵。我們使用這些基於區域的特徵作為對抗網路的輸入。對於乙個目標的特徵,asdn將嘗試生成乙個掩碼,指示要丟棄的特徵的哪些部分(分配零),以便檢測器無法識別目標。對抗空間變換網路(astn)
我們現在介紹對抗空間變換網路(astn)。我們的關鍵思想是在目標特徵上建立變形,並使檢測器的目標識別變得困難。我們的網路建立在[14]中提出的空間變換網路(stn)上。 在他們的工作中,stn被提出來使特徵變形,使分類更容易。而我們的網路正在完成相反的任務。通過與我們的astn網路競爭,我們可以訓練乙個更好的對變形具有魯棒性的檢測器。
stn概述。空間變換網路[14]有三個部分:定位網路,網格生成器和取樣器。對於輸入的特徵圖,定位網路將估計要變形的量(例如,旋轉度,平移距離和縮放因子)。這些變數將被用作在特徵圖上的網格生成器和取樣器的輸入。輸出是變形的特徵圖。請注意,我們只需要了解定位網路中的引數。stn的關鍵貢獻之一是使整個過程是可微分的,從而可以通過反向傳播直接優化分類目標的定位網路。有關更多技術細節,請參閱[14]。
對抗stn。在我們的對抗空間變換網路中,我們專注於特徵圖旋轉。也就是說,在roi-pooling層後給出了乙個特徵圖作為輸入,我們的astn將學習旋轉特徵圖,使其更難識別。我們的定位網路由3個完全連線的層組成,其中前兩層使用來自imagenet預訓練網路的fc6和fc7層進行初始化,就像我們的對抗空間丟棄網路一樣。
我們共同訓練astn和fast-rcnn檢測器。對於訓練檢測器,類似於asdn中的過程,roi-pooling之後的特徵首先由astn進行轉換,並**到較高層以計算softmax損失。為了訓練astn,我們優化它以便檢測器將前景目標分類為背景類。與asdn不同,由於空間變換是可以微分的,我們可以直接使用分類損失來對astn的定位網路中的引數進行回溯和微調。
實現細節。在我們的實驗中,我們發現限制astn的旋轉度非常重要。否則,很容易將目標上下顛倒,這在大多數情況下是最難識別的。我們將旋轉度限制在順時針和逆時針10度以內。相比於沿同一方向旋轉所有特徵圖,我們將通道尺寸上的特徵圖劃分為4個塊,並為不同的塊估計4個不同的旋轉角度。由於每個通道對應於一種型別的啟用特徵,旋轉通道分別對應於導致變形的不同方向的物體的旋轉部分。我們還發現,如果我們對所有特徵圖使用乙個旋轉角度,astn將經常**最大的角度。通過使用4個不同的角度而不是乙個,我們增加了任務的複雜性,防止網路**瑣碎的變形。
2.3 對抗融合
兩個對抗網路asdn和astn也可以在同乙個檢測框架中組合在一起並聯合訓練。由於這兩個網路提供不同型別的資訊。通過同時競爭這兩個網路,我們的檢測器變得更加健壯。
我們將這兩個網路以順序的方式組合到fast-rcnn框架中。 如圖4所示,在roi-pooling之後提取的特徵對映首先進入到我們的asdn,asdn會刪除一些啟用值。修改後的特徵由astn進一步變形。
asdn分析。我們比較我們的對抗空間丟棄網路與使用alexnet架構的訓練中的各種丟棄/遮擋策略。我們嘗試的第乙個簡單基線是roi-pooling後的特徵的隨機空間丟棄。為了公平的比較,我們遮蔽了與asdn網路中相同數量神經元的啟用值。如表2所示,隨機丟失的表現為57.3%map,略好於基線。我們比較的另乙個丟棄策略是我們在訓練asdn時應用的類似策略(圖3)。我們詳細列舉了不同種類的遮擋,並在每次迭代中選擇最好的遮擋進行訓練。表現為57.7%的map(ours(hard dropout)),略好於隨機丟棄。
我們發現窮舉策略只能探索非常有限的遮擋策略空間,我們使用預先訓練的asdn網路來代替它。然而,當我們固定asdn的引數時,我們發現效能是57.5%的map(ours(fixed asdn)),這不如窮盡的策略。原因是固定的asdn沒有收到更新fast-rcnn的任何反饋,而詳盡的搜尋得到了反饋。如果我們一起共同學習asdn和fast-rcnn,我們可以獲得58.5%的map,與沒有丟棄策略的基線相比,map提高1.5%。這個證據表明,asdn和fast-rcnn的共同學習是有所不同的。
astn分析。我們將對抗空間變換網路與目標候選區域的隨機抖動進行了比較。增強包括對fast-rcnn進行訓練的尺寸的隨機變化,縱座標和旋轉。使用alexnet,使用隨機抖動的效能為57.3%map,而astn結果為58.1%。使用vgg16,隨機抖動有68.6%map而astn有69.9%map。對於這兩種架構,astn的模型比隨機抖動更好。
簡單的閱讀ohem
****:
目標檢測中的正負樣本
以人臉識別為例,如果你的任務是識別教室中的人臉,那麼負樣本的選取應該是教室中的窗戶 椅子 牆 人的身體 衣服顏色等等,而不是天空 月亮這些對本任務沒有幫助的場景。當然,如果不確定應用環境,那麼應該選取盡可能有不同光照不同環境的自然影象作為負樣本。個人理解的正樣本就是任務所要檢測的目標物,比如在人臉識...
小樣本目標檢測研究現狀
標檢測任務是計算機視覺的基礎任務之一,主要任務是對影象中的目標進行分類和定位。但是現有的目標檢測任務基於大量的標註的影象進行訓練,限制了某些場景下的應用和推廣。通過應用較少的標註資料的半監督方法或者利用不完全匹配的標註資料的弱監督方法,利用極少的標註資料學習具有一定泛化能力的模型顯得較為重要,這也是...
目標檢測中region proposal
首先我們明確乙個定義,當前主流的object detection框架分為1 stage和2 stage,而2 stage多出來的這個stage就是regional proposal過程,明確這一點後,我們繼續講。regional proposal的輸出到底是什麼?我們首先看一下以faster r c...