有一項重要的技術,通常用於自動駕駛、醫學成像,甚至縮放虛擬背景:「語義分割。這是將影象中的畫素標記為屬於n類中的乙個(n是任意數量的類)的過程,這些類可以是像汽車、道路、人或樹這樣的東西。就醫學影象而言,類別對應於不同的器官或解剖結構。
nvidia research正在研究語義分割,因為它是一項廣泛適用的技術。我們還相信,改進語義分割的技術也可能有助於改進許多其他密集**任務,如光流**(**物體的運動),影象超解析度,等等。
我們開發出一種新方法的語義分割方法,在兩個共同的基準:cityscapes和mapillary vistas上達到了sota的結果。。iou是交並比,是描述語義分割**精度的度量。
在cityscapes中,這種方法在測試集上達到了85.4 iou,考慮到這些分數之間的接近程度,這相對於其他方法來說是乙個相當大的進步。
在mapillary上,使用單個模型在驗證集上達到了61.1 iou,相比於其他的使用了模型整合最優結果是58.7。
**結果
研究過程
為了開發這種新方法,我們考慮了影象的哪些特定區域需要改進。圖2顯示了當前語義分割模型的兩種最大的失敗模式:細節錯誤和類混淆。
圖2,舉例說明語義分割的由於尺度原因出現的常見錯誤模式。在第一行中,在縮小了0.5x的影象中,細細的郵箱被分割得不一致,但是在擴大了2.0x的影象中,**得更好。在第二行中,較大的道路/隔離帶區域在較低的解析度(0.5x)下分割效果較好
在這個例子中,存在兩個問題:細節和類混淆。
我們的解決方案在這兩個問題上的效能都能好得多,類混淆幾乎沒有發生,對細節的**也更加平滑和一致。
在確定了這些錯誤模式之後,團隊試驗了許多不同的策略,包括不同的網路主幹(例如,widerresnet-38、efficientnet-b4、xcepase -71),以及不同的分割解碼器(例如,deeperlab)。我們決定採用hrnet作為網路主幹,rmi作為主要的損失函式。
hrnet已經被證明非常適合計算機視覺任務,因為它保持了比以前的網路widerresnet38高2倍解析度的表示。rmi損失提供了一種無需訴諸於條件隨機場之類的東西就能獲得結構性損失的方法。hrnet和rmi損失都有助於解決細節和類混淆。
為了進一步解決主要的錯誤模式,我們創新了兩種方法:多尺度注意力和自動標記。
多尺度注意力
在計算機視覺模型中,通常採用多尺度推理的方法來獲得最佳的結果。多尺度影象在網路中執行,並將結果使用平均池化組合起來。
使用平均池化作為乙個組合策略,將所有尺度視為同等重要。然而,精細的細節通常在較高的尺度上被最好地**,大的物體在較低的尺度上被更好地**,在較低的尺度上,網路的感受野能夠更好地理解場景。
學習如何在畫素級結合多尺度**可以幫助解決這個問題。之前就有關於這一策略的研究,chen等人的attention to scale是最接近的。在這個方法中,同時學習所有尺度的注意力。我們將其稱為顯式方法,如下圖所示。
圖3,chen等人的顯式方法是學習一套固定尺度的密集注意力mask,將它們結合起來形成最終的語義**。
受chen方法的啟發,我們提出了乙個多尺度的注意力模型,該模型也學會了**乙個密集的mask,從而將多尺度的**結合在一起。但是在這個方法中,我們學習了乙個相對的注意力mask,用於在乙個尺度和下乙個更高的尺度之間進行注意力,如圖4所示。我們將其稱為層次方法。
圖4,我們的分層多尺度注意力方法。上圖:在訓練過程中,我們的模型學會了**兩個相鄰尺度對之間的注意力。下圖:推理以鏈式/分層的方式完成,以便將多個**尺度組合在一起。低尺度注意力決定了下乙個更高尺度的貢獻。
這種方法的主要好處如下:
表3,層次多尺度注意力方法與mapillary驗證集上其他方法的比較。網路結構為deeplab v3+和resnet-50主幹。評估尺度:用於多尺度評估的尺度。flops:網路用於訓練的相對flops。這種方法獲得了最好的驗證集分數,但是與顯式方法相比,計算量只是中等。
圖5顯示了我們的方法的一些例子,以及已學習的注意力mask。對於左邊中郵箱的細節,我們很少關注0.5x的**,但是對2.0x尺度的**非常關注。相反,對於右側影象中非常大的道路/隔離帶區域,注意力機制學會最大程度地利用較低的尺度(0.5x),以及更少地利用錯誤的2.0x**。
圖5,兩種不同場景的語義和注意力**。左邊的場景說明了乙個精細的細節問題,而右邊的場景說明了乙個大的區域分割問題。白色表示較高的值(接近1.0)。給定畫素在所有尺度上的注意力值總和為1.0。左:道路邊的細郵箱在2倍的尺度下得到最好的解析度,注意力成功地關注了這個尺度而不是其他尺度,這可以從2倍注意力影象中郵箱的白色中得到證明。右圖:大的道路/隔離帶區域在0.5x尺度下的**效果最好,並且該區域的注意力確實成功地集中在0.5x尺度上。
自動標記
改進城市景觀語義分割結果的一種常用方法是利用大量的粗標記資料。這個資料大約是基線精標註資料的7倍。過去cityscapes上的sota方法會使用粗標註標籤,或者使用粗標註的資料對網路進行預訓練,或者將其與細標註資料混合使用。
然而,粗標註的標籤是乙個挑戰,因為它們是有雜訊的和不精確的。ground truth粗標籤如圖6所示為「原始粗標籤」。
圖6,自動生成粗影象標籤的例子。自動生成的粗標籤(右)提供了比原始的ground truth粗標籤(中)更精細的標籤細節。這種更精細的標籤改善了標籤的分布,因為現在小的和大的物品都有了表示,而不是只在主要的大的物品上才有。
受最近工作的啟發,我們將自動標註作為一種方法,以產生更豐富的標籤,以填補ground truth粗標籤的標籤空白。我們生成的自動標籤顯示了比基線粗標籤更好的細節,如圖6所示。我們認為,通過填補長尾類的資料分布空白,這有助於泛化。
使用自動標記的樸素方法,例如使用來自教師網路的多類概率來指導學生,將在磁碟空間上花費非常大的代價。為20,000張橫跨19個類的、解析度都為1920×1080的粗影象生成標籤大約需要2tb的儲存空間。這麼大的代價最大的影響將是降低訓練成績。
我們使用硬閾值方法而不是軟閾值方法來將生成的標籤占用空間從2tb大大減少到600mb。在這個方法中,教師**概率 > 0.5是有效的,較低概率的**被視為「忽略」類。表4顯示了將粗資料新增到細資料和使用融合後的資料集訓練新學生的好處。
表4,這裡顯示的基線方法使用hrnet-ocr作為主幹和我們的多尺度注意方法。我們比較了兩種模式:用ground truth 細標籤 + ground truth粗標籤訓練到ground truth 細標籤 + auto-粗標籤(我們的方法)。使用自動粗化標籤的方法在基線上提高了0.9的iou。
圖7,自動生成粗影象標籤的例子
最後的細節
該模型使用pytorch框架在4個dgx節點上對fp16張量核進行自動混合精度訓練。
**:**:
,**店:
: 智星ai
注意力漂移
在學習李笑來的一本講自學的新書時,我學習到乙個概念 注意力漂移,這個概念很好的概況了自己有時候在生活工作中的一種狀態。如果你對上面的場景特別熟悉,那麼需要自己注意了,如果上面的場景經常在你的生活工作 現,你可能並不是乙個高效的工作者。在上面的例子中,我發現時間過去了,自己想做的工作卻幾乎沒有進展,問...
注意力機制
從網路結構本身的角度出發,可以從以下四個維度來提公升卷積神經網路的效能,分別是 深度 resnet 寬度 wideresnet 基數 resnext 和注意力 senet 一般來說,網路越深,所提取到的特徵就越抽象 網路越寬,其特徵就越豐富 基數越大,越能發揮每個卷積核獨特的作用 而注意力則是一種能...
注意力機制
深度學習中的attention,源自於人腦的注意力機制,當人的大腦接受到外部資訊,如視覺資訊 聽覺資訊時,往往不會對全部資訊進行處理和理解,而只會將注意力集中在部分顯著或者感興趣的資訊上,這樣有助於濾除不重要的資訊,而提最早將attention利用在影象處理上的出發點是,希望通過乙個類似於人腦注意力...