馬超老師先是將現有跟蹤演算法分為回歸模型和分類模型兩類,而後指出了兩種方法各自的特點,如回歸模型會輸出密集的響應圖,方便利用多層級深度特徵,但是對尺度不敏感,而分類模型會輸出稀疏響應圖,依賴隨機取樣,對尺度敏感,方便與生成網路、注意力機制結合。從而基於正樣本在空間上過度重合以及正負樣本數量嚴重不平衡的角度出發,決定採取生成判別網路(gan)來多樣化正樣本,採用代價敏感的損失函式減輕樣本數量不平衡的問題。並指出了在使用gan的過程中引發的一些思考:
1)、無法直接利用gan提高兩階段 基於檢測的跟蹤框架;
2)、網路輸入是取樣的而不是雜訊;
3)、分類器需要的是有監督學習,而不是簡單的fake和true;
4)、需要的是判別器、而不是生成器.
基於上述思考提出了自己的方法,如圖(1)所示:
採用了類似attention的機制,生成乙個 brunch,得出mask,乘在特徵上來得到分類損失。
類似attention是因為該機制與attention相反的,是對抗學習的過程。訓練中先用掩模修飾過後的深度特徵,保留原本的標籤進行有監督學習,訓練掩模生成器的時候隨機生成一系列掩模,挑選具有最大高斯的掩模,進行特徵修飾。
具體做法就是,一開始隨機初始化9個mask,相當於初始複製9份,輸入到對抗學習的過程中去。這個操作裡與attention不同之處就是,在attention中中間的區分性比較大,我們希望給他最大的權重,但我們在對抗學習的過程中,他的權值是最低的,也就是中間的區分性比較低,就像高手在開始練習輕功的時候,一開始要在腿上綁乙個沙袋,練成了之後取下來就會特別厲害。把最顯著的特性,用mask蓋掉,這樣訓練起來對分類器的迷惑性是最高的,訓練之後魯棒性也就是最好的。
從gan對分類器的有效性分析的角度出發,對於二值分類器的熵分布,如公式(1)所示:
其中,p和1-p是**到的正負樣本的概率,熵越高,則分類越不確定。
基於正負樣本損失差距巨大的現像引入了代價敏感損失函式,即容易判別的負樣本總是產生較小損失,但數量大。而所有容易判別的負樣本損失的和佔所有損失的大部分,所以通過引入代價敏感損失函式來降低容易判別的負樣本的損失的權重,代價敏感損失函式如式(2)所示
結合對抗式學習和代價敏感損失函式,我們可以得到如下式(3)所示的損失函式
其中,對於使用gan進行跟蹤的總結如下:
1)gan可以增強正樣本,捕獲更多的外觀形狀變化
2)樣本數量不平衡影響分類器的訓練,代價敏感損失函式可以減輕樣本數量不平衡帶來的***
3)對抗式學習結合代價敏感損失函式在多個資料集上取得當前最優的跟蹤效果
基於對抗學習的工作通過乙個類似attention的機制來進行對抗學習,而接下來還將探索如何使用乙個attention的機制來更好的幫助訓練分類器,也就是往復式深度學習的方法。基於往復式深度學習的方法流程圖如下圖(2)所示。
往復式深度學習仍選用二分類的跟蹤框架,給定乙個訓練樣本,我們首先在正向操作中計算其分類分數。然後對該樣本對分類分值求偏導,得到後向操作中的注意圖。我們使用這些對映作為正則化項,並結合分類損失來訓練分類器。在測試階段,沒有生成注意圖。分類器直接**目標位置。
對於關注度響應圖的正則化訓練是根據期望正類別響應圖在物體附近亮點均值高,方差小,即用均值來除以方差;期望負類別響應圖在物體附近亮點均值小,方差大,即顛倒過來,用方差來除以均值。從而通過正則化約束使分類正確的圖中響應分布高亮集中,分類錯誤的圖中響應分布暗淡分散。
綜上所述,往復式學習的總體流程如下:
1)在訓練過程中,先對每乙個樣本進行前向傳播產生**;
2)再對每個**進行後向傳播獲得關注度響應圖;
3)計算響應圖對應的統計特性,對分類損失進行正則項約束;
4)依據計算出的損失更新網路引數.
對於使用往復性深度學習的總結如下:
1)往復式深度學習可以挖掘網路自身對目標物體的關注度;
2)關注度響應圖可以作為正則化約束項幫助網路的訓練;
3)訓練結束後,網路具有對目標物體的關注特性,從而提公升跟蹤效能。
(文末附上馬超老師團隊對於目標跟蹤演算法的2019cvpr的兩篇最新工作的poster展示)
深度學習 GAN生成式對抗網路
生成式對抗網路 gan,generative adversarial network 的簡單理解就是,想想一名偽造者試圖偽造一幅畢卡索的畫作。一開始,偽造者非常不擅長這項任務,他隨便畫了幅與畢卡索真跡放在一起,請鑑定商進行評估,鑑定商鑑定後,將結果反饋給偽造者,並告訴他怎樣可以讓 看起來更像畢卡索的...
深度學習 生成式對抗網路的損失函式的理解
生成式對抗網路即gan由生成器和判別器組成。原 中,關於生成器和判別器的損失函式是寫成以下形式 首先,第乙個式子我們不看梯度符號的話即為判別器的損失函式,logd xi 為判別器將真實資料判定為真實資料的概率,log 1 d g zi 為判別器將生成器生成的虛假資料判定為真實資料的對立面即將虛假資料...
語義分割 基於openCV和深度學習(一)
語義分割 基於opencv和深度學習 一 semantic segmentation with opencv and deep learning 傳統的分割方法是將影象分割為若干部分 標準化切割 圖形切割 抓取切割 超畫素等 然而,演算法並沒有真正理解這些部分所代表的內容。另一方面,語義分割演算法試...