2020二維影象語義分割的熱點方向是域自適應語義分割(domain adaptive semantic segmentation),半監督/弱監督語義分割(semi-supervised/weakly-supervised semantic segmentation),少樣本語義分割(few-shot semantic segmentation)等。基於encoder-decoder結構的網路模型已經將語義分割的效能大大提公升,相關研究進入了瓶頸期,大家都在思考從實時性、nas、圖卷積、自監督等其他方面著手考慮。另外,小物體和邊緣分割仍然是值得思考的出發點,最近兩年的一些研究通過多工學習,利用邊緣分支設計損失聯合提公升語義分割效能。在這裡,總結下最近閱讀的幾篇通過採用邊緣檢測作為輔助資訊,聯合語義分割進行多工學習的方法。
iccv2019的gated-scnn:gated shape cnns for semantic segmentation認為通過乙個深度cnn網路同時處理影象的顏色,形狀和紋理資訊用於畫素級分類可能不是理想的做法,因此該**提出two-stream cnn結構,將形狀資訊作為單獨處理的分支。兩分支包括shape stream和regular stream,二者相互協作且是並行的,通過設計的門控卷積層和區域性監督損失有效地移除了雜訊並幫助shape stream僅僅處理與邊界相關的資訊,然後通過aspp模組保留多尺度上下文資訊,融合regular stream的語義區域特徵和shape stream的邊界特徵產生refined的分割輸出,尤其refine在邊界周圍的畫素分割。
網路結構如上圖所示,regular stream可以是任何前向全卷積網路,如resnet-101,wideresnet等。shape stream是一系列1×1
1\times1
1×1卷積,殘差塊和gcl(gated conv layer)的組合,該分支的輸入包含兩項,原始影象梯度和regular stream分支的第乙個卷積層輸出(應該指的是resnet中的第乙個stage輸出)。門控卷積層實際上可以看成是一種注意力機制,可以根據regular stream的高層次資訊去指導shape stream集中在邊界部分(edge bce loss才是驅動力),其具體計算方式見原**,然後aspp在多尺度上融合兩個分支輸出的特徵圖,最後輸出語義分割圖。上圖的edge bce loss是區域性監督損失,監督的是shape stream還沒送到aspp前的邊界概率圖,segmentation loss是交叉熵損失(ce loss),監督最終輸出語義分割圖,更新包括aspp的所有引數,dualtask loss是雙任務的正則化損失,基於邊界**和邊界區域語義分割的二元性和邊界**和語義**的一致性思想設計。
cvpr2020的improving semantic segmentation via decoupled body and edge supervision認為卓越效能的語義分割要求顯示建模目標主體和邊界,分別對應影象的低頻和高頻部分。原始影象可分解為低頻和高頻分量,因此假定語義分割網路輸出的高語義層次特徵圖也能被解耦為兩部分:主體特徵和邊界特徵。主體特徵通過基於流場的方法,學習偏移量變形目標內部畫素特徵生成,邊界特徵則是輸出特徵圖減去主體特徵獲得。邊界畫素分類是困難的,解耦成主體特徵會提公升目標內部畫素的一致性(減少了來自邊界損失帶來的雜訊);解耦成邊緣特徵可以專門設計針對邊界畫素進行難例挖掘的損失。
生成主體特徵是follow flownet-s的做法,先根據原始特徵圖f去獲得flow field圖,然後根據類似雙線性插值的公式,根據flow field圖變形原始特徵圖f生成主體特徵,殘留邊緣特徵由原始特徵圖f減去主體特徵得到。解耦後的主體特徵和邊緣特徵會由專門設計的損失監督進行refine,接著再利用refine後的兩部分特徵等重構最終特徵,主體特徵由邊界鬆弛損失監督(弱化邊界處的畫素具體分類,見原始**),邊緣特徵由二值交叉熵損失監督,最終特徵由交叉熵損失監督,還設計了根據邊緣**得到的邊界對語義分割最終**進行難例挖掘,多工學習聯合提公升效能。
cvpr2020的joint semantic segmentation and boundary detection using iterative pyramid contexts提出聯合多工學習框架用於語義分割和語義邊緣檢測,其關鍵設計是迭代的金字塔上下文模組(pyramid context module),耦合兩個任務並儲存共享的潛在語義進行兩個任務之間互動。對於語義邊界檢測,提出新的空間梯度融合去抑制非語義邊界,並引進帶邊界一致性約束的二元損失函式去提公升邊界畫素正確率。語義邊界檢測是多標籤任務,不同於前面兩篇**的二值邊緣檢測,其目的是識別屬於目標邊界的畫素類別,二值邊緣檢測忽視了邊界的語義資訊。
backbone是帶空洞卷積的殘差網路,交替通過pcm模組refine特徵圖,經過s個步驟後可得到足夠好的特徵圖用於語義分割和語義邊緣檢測。語義分割概率圖通過空間梯度計算得到語義邊界概率圖,並根據語義邊界概率圖計算二元損失,幫助抑制語義邊緣檢測任務中的非語義邊界,得到refine後的語義邊界概率圖,提公升邊界畫素分類效果。語義分割mask由交叉熵損失監督,經過refine後的語義邊界概率圖由語義邊界損失監督,pcm和損失的設計見原始**。
聯合邊緣檢測和語義分割進行多工學習,提公升語義分割效能是乙個可取的做法,gated-scnn和decouplesegnets都是利用二值邊緣檢測聯合語義分割來提公升效能,最後一篇的rpcnet則是利用語義邊緣檢測聯合語義分割進行多工學習,兩者的耦合性更一致。
語義分割 目標檢測 IOU計算相關
intersection over union是一種測量在特定資料集中檢測相應物體準確度的乙個標準。我們可以在很多物體檢測挑戰中,例如pascal voc challenge中看多很多使用該標準的做法。通常我們在 hog linear svm object detectors 和 convoluti...
用語義分割來做車道線檢測
語義分割這幾年發展真的快,去年暑假我用enet分割車道線,效果還行,速度很快,前幾天逛github又發現一大堆更好的網路,erfnet shufflenet等,都是一些變種的網路,看他們 的結果都是乙個比乙個好。這裡先記錄一下之前跑enet的結果。模型是用的github上tensorflow版本的e...
語義分割 語義分割任務中最常用的評價指標
語義分割目前在自動駕駛場景解析 醫學影象分割等多個領域被廣泛應用,簡言之,是對每個畫素進行分類。目前語義分割中最常用的評價指標是平均交並比 mean inetersection over union,簡稱miou 這個最常用 和 畫素準確率 pixel accuracy,簡稱pa 在主流的期刊 會議...