基於域自適應語義分割學習小結

2021-10-23 08:28:58 字數 3871 閱讀 4566

乙個場景下的資料集訓練的語義分割模型,並不能很好的適應另乙個場景的資料,所以需要對場景進行遷移,從而實現模型對多場景下的資料的良好分割。最開始對這方面的研究,是為了將遊戲場景生成的資料訓練的模型能很好地遷移到現實場景。語義分割是在畫素級別進行分類,不適合運用特徵自適應。高維特徵很複雜,不適合用來進行適配。文獻一是對語義分割的輸出進行適配,語義分割的輸出是低維空間上的,包含了豐富的上下文和布局等資訊。

文獻一:learning to adapt structured output space for semantic segmentation

code

*****

一、**大致介紹

提出一種域自適應語義分割,主要為了解決場景遷移問題。本文所提的域自適應演算法由分割網路g和判別網路d組成。源域影象用於訓練分割網路,源域和目標域的分割**作為判別網路的輸入,進行對抗學習,讓目標域的分割分布接近於源域的分割分布。這種模型的損失函式由兩部分組成:基於源域影象的分割損失函式和源域和目標域分割**的對抗損失。公式如下:

域自適應語義分割模型又分為單級對抗學習和多級對抗學習,多級模型即使用多個域適應(da)模組,在dcnn模型中抽出幾層卷積層的特徵圖,然後在每層特徵圖後面跟乙個aspp結構進行softmax輸出,然後餵入到判別器中。

一級對抗學習

判別器訓練:分割softmax輸出p=g(i)∈rhxwxc, c為類別數量,這裡為兩類(目標和源域)。將p輸入基於交叉熵損失函式的全卷積判別器d。判別器的損失函式如下:

z=0,樣本來自目標域,z=1,樣本來自源域。

分割網路訓練:定義源域的損失函式為:

對抗學習訓練:將目標域影象輸入到g中,得到**pt=g(it),為了讓pt接近ps,使用對抗損失ladv (計算的是判別為源影象的概率)

多級對抗學習

損失函式為:

i是輸出的級別。

對抗學習的過程可以表示為:

對抗學習是為了讓判別器盡力能辨別出是來自源域還是目標域,分割網路能輸出接近源域分布的目標域影象,讓判別器無法區分。

二、網路結構

網路結構如圖1所示,分割網路採用的deeplab v2模型,判別器使用了5層卷積層。

判別器

使用的4x4卷積核,步長為2,通道數為,最後一層分類層沒有連線leaky relu,其他卷積層都有,引數為0.2。在最後一層卷積層後面新增了乙個上取樣層,沒有使用bn。

分割網路

採用deeplap-v2框架基於在imagenet上預訓練的resnet-101,將最後的乙個分類層移除,將最後兩個卷積層stride2變成1,使輸出特徵圖解析度有效控制在輸入影象的1/8倍,為了擴大感受野,在conv4和conv5中使用2x和4x孔洞卷積,最後一層之後,使用aspp作為分類器。在softmax層後使用乙個上取樣層,還原為輸入影象的大小。

多級適應模型

在第四層的卷積層後加上乙個輔助分類器aspp,然後新增有相同結構的判別器,用於對抗學習。

網路訓練

1)使用源域影象訓練分割網路g;(loss_seg=loss_seg2+λloss_seg1)

2)基於target的**圖訓練判別器d ;(loss_adv_t=λ1

_11​

loss_adv_t2+ λ2

_22​

loss_adv_t1)

3)基於source的**圖訓練判別器d;(loss_d1,loss_d2)

4)基於target的**圖訓練判別器d;(loss_d1,loss_d2)

使用工具及引數:

pytorch、sgd優化器,momentum=0.9和0.99 weight decay=10-4,原始學習率=2.5x10-4。

圖1.演算法概述。使用兩個不同層的特徵圖的分割**輸出進行對抗學習,這就是提出的多層次對抗性學習。

三、實驗結果

使用了完整的gta5(24966張)並將模型適應於擁有2975張影象的cityscapes訓練集。在測試期間,對cityscapes驗證500張。

需要的資料格式:

訓練集:目標域原圖、源域原圖和標籤圖

實驗分析比較了在特徵和輸出空間進行適應的結果對比,輸出空間能接受更大範圍的λadv。設定的訓練引數:λse

又對synthia(9400)適應cityscapes資料集和cityscapes資料集適應cross-city資料集做了實驗,三次試驗結果如下圖,與其他文獻方法做了對比。分別以主幹網路為vgg的模型進行對比,再基於resnet,對單級、多級以及特徵適應做了對比。

不同城市的資料:rio、rome、tokyo 和 ****ei,每個城市有3200張標註的影象,100張標註的影象(驗證集)。資料集間的域間隙小,使用更小的權重:λad

補充:使用了deeplab v2模型在資料集gta5上進行了訓練,訓練步數15000,並且使用cityscapes的驗證集作為模型驗證集,miou=30.7%。

總結 域自適應 跨域分割方法 城市場景 語義分割

組成部分 實驗 實驗結果分析 結論 研究背景 語義分割 影象分析與理解 計算機視覺 自動駕駛 無人駕駛 vr虛擬實境增強 人機互動 醫療 人工智慧 語義分割 是計算機視覺和醫學影象中的重要研究課題,其任務是對影象中的每個畫素點進行分類,並使用不同顏色來標註影象中的不同目標類別。有標籤 監督的語義分割...

自適應模糊閾值分割

在找到波峰後,下一步就是利用模糊數學的概念找到最佳閾值,進行分割。個人理解就是不確定,像天氣怎麼樣?這樣的大雨中雨小雨之間的界限,就是不確定的,它和確定數學是相對的。在2個波峰之間,到底閾值是多少合適,這是個模糊的,不同的方法,不同的目的,可能就是得到不同的數值,這就應用模糊數值的概念得到閾值。模糊...

iframe高度自適應(同域)

今天解決了iframe高度自適應的問題,不過這只是同域下的頁面嵌入,以下是 function setcwinheight else if iframeid.document iframeid.document.body.scrollheight view code 當嵌入頁面修改時,iframe的高...