目標檢測排行榜 兩種端到端通用目標檢測方法

2021-10-20 02:32:15 字數 3700 閱讀 2888

摘要:本文介紹兩種端到端訓練通用目標檢測演算法--detr和defcn。

通用目標檢測作為計算機視覺中乙個基礎的任務,對著影象理解、資訊提取有著極為重要的意義。對於該任務目前已經發展出了許多方法,如基於全卷積的單階段方法densebox,yolo,ssd, retinanet和centernet等,以及更加複雜的多階段方法rcnn, fast rcnn, faster rcnn和 cascade rcnn等。根據目標檢測任務的定義,這些方法需要對影象**現的目標物體進行定位和分類,為了確保目標的召回率,結合卷積神經網路的採用的滑動視窗**的特性,上述的方法均使用卷積進行密集的候選區提取和目標**,因此對於輸入的每個目標,往往有多個網路**值相對應。

這些方法通常使用非極大值抑制方法(nms)對重複的**結果進行過濾,從而得到最終**結果。不同於卷積操作,nms過程不可導,模型無法對去重的過程進行優化,最終的檢測檢測模型也由於該操作的存在不能做到完全端到端。

通用目標檢測近期的一些進展中,一些方法實現了端到端訓練,訓練和推理均無需nms操作。如基於transformer的detr[1]和全卷積defcn[2], 兩種方法採用了較為不同的實現路線,分別具有不同的優勢和潛力,下面對這兩種方法進行介紹。

detr

transformer在自然語言處理任務中取得了巨大的成功,detr首次將transformer應用到目標檢測任務之中,實現了端到端目標檢測,並在coco目標檢測任務上取得了和高度優化的faster rcnn相當的精度。detr對目標、全域性資訊之間的關係進行推理,無需nms直接並行的輸出**目標集。

如圖1 所示,detr將cnn和transformer組合的結構,直接並行**目標集。可見,該方法將檢測問題看做是乙個集合**問題。相對於之前基於集合**的方法,detr不同之處在於:使用了二分匹配損失函式;並行的transformer解碼結構。這些特性使detr的**結果具有排列不變性,可以做到並行**,提高了模型效率。

圖1. detr 檢測流程

影象在cnn提取到二維特徵後,由於transformer只能處理一維序列,所以需要將二維特徵進行鋪平,得到一維特徵。直接輸入到transformer會使特徵失去空間編碼資訊,因此該方法給該特徵新增了乙個位置嵌入,以保留特徵空間資訊。注意到展平的特徵輸入到transformer中將消耗較大的計算量,該方法沒有採用fpn結構,只使用高層低分辨特徵。

如表1所示,該方法相對於faster rcnn相當的結果,由於**過程使用了全域性資訊,該方法在大目標上擁有較好的效果。同時由於沒有採用fpn結構,該方法在小目標上結果相對較差。

表1. detr在coco 上的實驗結果

該方法無需nms操作,但加上nms會對結果有一定的影響。如圖2 所示,加上nms後ap值稍有上公升,同時隨著模型複雜度的提公升,提公升逐漸變小,這表明在該方法在一定條件下基本沒有重複**,也無需nms操作。

圖2. nms對結果的影響

detr突破了之前的檢測正規化,使用集合**,然而方法優化速度較慢,並且由於計算量的限制,難以使用高分率特徵,對小目標檢測效果不佳。後續一些方法如deformdet進行了一些針對這些問題做了一些改進,實現了效果的提公升。

defcn

不同於detr使用了transformer,defcn則基於全卷積實現了端到端檢測。defcn基於focs實現,同樣使用密集**但卻做到了無需nms操作。在先前的方法中,訓練和**階段均採用一對多的策略,即每乙個目標對應網路輸出的多個**值,這導致測試階段必須使用nms進行去重。該方法對這個對應策略進行了**,提出使用一對一的樣本匹配方式,並通過額外的設計使得最終模型在實現一對一**的同時保持相當的效能。由於無需nms, defcn在密集資料集上能突破nms的理論上限,充分體現了該方法的優勢。

圖 3. defcn的結構圖

使用一對一的分配策略最簡單的是直接使用目標中心或者錨框作為每個目標唯一的正樣本,然而這種方式相對於之前的一對多的設計如focs會有較大的效能損失。該方法從損失函式和特徵兩個方面來解決一對一分配帶來的效能下降。總體結構如圖3所示。

對於損失函式,乙個要考慮的問題是正樣本如何進行定義。由於目標外形的變化,選擇目標包圍框的中心並不是乙個非常好的選擇,特別每個目標定義的正樣本只有乙個,網路優化更容易受到分配策略的影響。受集合損失函式的啟發,該方法將樣本匹配也看做乙個二分圖匹配的問題,對集合損失進行一定優化,根據網路輸出結果進行正負樣本分配。具體的分配策略主要考慮三個方面:正樣本分佈的位置先驗;分類分支的得分;回歸的包圍盒與gt的iou。最終正樣本選取三者乘積得分的最高者。如公式2所示:

使用了一對一的樣本分配策略後,模型的效能仍然難以達到先前一對多的方法,因此該方法在訓練階段額外新增了乙個輔助損失,不影響推理。該損失的樣本分配使用傳統的一對多,如表2所示,加上該損失後結果有明顯提公升。

從網路設計方面考慮,該方法基於全卷積網路,而卷積操作是乙個線性操作,一對一的策略需要網路輸出比較銳利,對於卷積來說具有一定的困難,因此該方法對特徵使用了最大池化濾波,並且對fpn的多個尺度的資訊進行了融合。如表2所示,新增了該模組(3dmf)後有明顯提公升。

表 2. 不同模組對最終結果的影響(coco)

圖 4. dedcn響應視覺化

如圖4所示,在網路輸出的目標概率圖中,fcos對於每個目標都有多個響應,需要進行nms去重(如4(a)),而defcn隨著各模組的新增較好的做到了每個目標對應乙個響應(如4(d)所示)。

表 3. crowdhuman效能分析

該方法在密集資料上擁有較強的優勢,並且能超過nms的理論上限,對於密集目標不容易出現誤過濾。

總的來講,上述兩個端到端檢測方法遵循著不同的路線,但是都能做到移除nms,做到了網路輸入到**結果之間的完全端到端,兩者都展現較好的潛力。detr引入transformer,在目標關係建模、全域性資訊理解上有挖掘的潛力。defcn憑藉簡單的設計,容易部署,在密集場景上有較好的應用價值。

參考文獻carion n, massa f, synnaeve g, et al. end-to-end object detection with transformers[j]. arxiv preprint arxiv:2005.12872, 2020.

wang j, song l, li z, et al. end-to-end object detection with fully convolutional network[j]. arxiv preprint arxiv:2012.03544, 2020.

抗衰老的66種蔬果排行榜

醫學研究證明,與機體老化相關的疾病及基因的突變,都與自由基的損傷有關。因此保持機體足夠的抗氧化物質,及時清除自由基,是抗衰老的重要手段。拒絕衰老的兩大要素就是蔬菜和水果 蔬菜 水果在防治人類一些與自由基損傷相關的疾病以及抗衰老過程中起著十分重要的作用。世界各國的膳食指南都把攝取蔬菜 水果列為重要內容...

排行榜 十種有效道歉方式

排行榜 十種有效道歉方式 關於道歉,中國人最看重的是 誠意 誠意 用在道歉上,一分一毫都能掂量出千尺溝壑來。仔細分析一下,所謂的 誠意 也不過就是個 消耗度 看你能在 道歉 這個事上折騰掉多少時間 精力 金錢當然還有所謂的 臉面 以下根據 消耗度 評出最具效果的十種道歉方式,有效等級隨排名次序依次增...

12種求職方式成功率排行榜。

各位兄弟姐妹們,你們是用哪一種找到工作的?人人都有自己找工作的經驗,但其實我們知道的並不多。很多人以為找工作就三樣東西 簡歷,招聘廣告和勞務中介。其實,找工的方式有12種,它們的有效率用百分比來表示 1.利用網際網路來看公司 中介 或者把自己的簡歷貼在 上等人來看。1 2.隨意地挑選報紙,簿上的公司...