資料增強 自動駕駛中的資料增強

2021-10-12 21:28:23 字數 2319 閱讀 4433

本文摘取了matt cooper對自動駕駛資料增強的一些看法。

文章的核心觀點是,針對特定的模型必須分析確定特定的資料增強器,不能把增強器技術黑箱使用,否在會產生過擬合。問題起源

作者在實習的時候實現乙個資料增強器,以改進物件檢測工作。這其中,一種簡單的技術被稱為裁剪正則化。簡而言之,就是在輸入影象中刪除隨機位置的正方形。根據以往的認識,這種技術可以顯著提高視覺應用的精度。但令人驚訝的是,這次這種技術失去了它的效用。而且,作者使用的其他所有增強器(flip/翻轉,crop/修剪)都削弱了模型的效能。

由此作者重新審視了資料增強的基本原理。

資料增強

過擬合是訓練深度神經網路時的乙個常見問題。這會導致乙個模型學習資料集中的雜訊而不是訊號。換句話說,他們記住了資料集的非預期屬性,而沒有學習到有關世界的有意義的一般資訊。因此,當給定新的、真實的資料時,過擬合網路無法產生有價值的結果。

為了解決過度擬合問題,我們經常增加訓練資料。增加視覺資料的常用方法包括水平隨機翻轉影象(flip)、改變影象的色調(hue抖動)或隨機剪下(crop)。

flip、hue和crop等增強器都有助於克服過度擬合,因為它們提高了網路的泛化能力。如果你訓練乙個網路來識別面向右的長頸鹿和面向左的長頸鹿,這個網路就會知道長頸鹿就是長頸鹿,不管方向如何。

coco公共資料集包含的影象**多樣,這些影象是不同的相機在不同的條件下拍攝的,因此待訓練的網路需要在許多因素上進行泛化才能有更好的表現。網路需要處理的一些變數包括:光照、比例、相機內部特性(如焦距、主點偏移和軸傾斜)和相機外部特性(如位置、角度和旋轉)。通過使用資料增強器,我們可以泛化這些變數來訓練網路。

自動駕駛中的資料增強

與coco和其他公共資料集的資料不同,自動駕駛汽車收集的資料具有某種一致性。與其他車輛和道路物體相比,汽車通常具有一致的姿態。此外,所有的影象都來自相同的相機,安裝在相同的位置和角度。這意味著同一系統收集的所有資料都具有一致的攝像機屬性,如上面提到的extrinsics和intrinsics。我們可以使用在實際生產中使用感測器系統來收集訓練資料。系統的特定相機屬性進行過度擬合實際上是有益的。

由於自動駕駛汽車的資料存在一致性,因此標準的資料增強器(如flip和crop)對效能的損害可能大於幫助。舉例來說,翻轉訓練影象沒有意義,因為攝像機總是處於相同的角度,而且汽車總是在路的右側。汽車幾乎永遠不會出現在道路的左側,攝像頭也永遠不會翻轉角度,因此對翻轉資料的訓練迫使網路過度概括到它永遠不會看到的情況。同樣,由於汽車的攝像頭總是在相同的位置,以相同的視野獲取世界,因此不必強迫模型去學習移動和縮放的資料。過度泛化會降低效能,因為網路會浪費**能力來學習無關的場景。

改進

意識到自動駕駛汽車的資料具有一致性後,作者在引入任何新的增強器之前,首先檢查了他們的資料集。作者的原始訓練集包括由兩個廣角相機和乙個帶有變焦鏡頭的相機拍攝的影象。其中變焦鏡頭產生的縮放和移動效果類似於crop。但在實際測試時,用到的只有廣角相機。因此在這個情景下,對變焦影象的訓練使網路過度泛化了。從原始訓練集中移除縮放影象令網路的效能提高了很多。

之後,作者實現了自己的增強器cutout。與flip和crop不同的是,cutout不會以顯著影響相機屬性的方式改變輸入(即通過翻轉、移動或縮放)。其主要用來模擬障礙物,障礙物的不變性可以幫助網路檢測部分遮擋的物體。

色調抖動增強也可以在不影響相機屬性的情況下幫助泛化。色調抖動只是將輸入的色調隨機偏移了一定的距離。這有助於網路泛化顏色,即一輛紅色的車和一輛藍色的車都應該被檢測到。

值得注意的是,這些增強技巧對來自不同相機型別、不同角度和比例的影象的資料集不起作用。確保你的測試資料涵蓋你的模型將在現實世界中看到的東西,這一點是很重要的。如果要使用專門的資料增強器的話,更要多注意這點。

假如你的資料集確實是魯棒和一致的,那麼這些技巧可以成為提高效能的強大工具。通過讓我們的網路了解我們車輛的攝像頭特性,可以顯著提高我們的目標檢測效能。

回顧事後來看,這些增強技巧似乎是顯而易見的。但實際情況,我們往往會當局者迷。flip和crop等增強器在研究問題上取得了廣泛的成功,我們從未想過要質疑它們對特定問題的適用性。但實際上,在實際進行研究時,我們需要從第一原則重新審視增強的概念。

機器學習領域有許多類似的通用最佳實踐,比如如何設定學習率、使用哪個優化器以及如何初始化模型。對於ml實踐者來說,不斷地重新審視我們關於如何訓練模型的假設是很重要的,特別是在為特定的應用程式構建模型時。與imagenet相比,在處理衛星測繪資料或細胞成像時,視力問題會發生什麼變化?我們認為像這樣的問題在學術界還沒有得到充分的**。通過用全新的視角來看待它們,我們有潛力極大地改善機器學習的工業應用。

自動駕駛資料分享

github apollo學習筆記1 可參考下面教程,待實際安裝再更新 在ubuntu18.04上實現apollo5.5系統部署 apollo 3.5各功能模組啟動過程解析 cyber原始碼分析 cyber設計思想 cyber rt中的任務排程 cyber分布式部署 cyber schedule排程...

ApolloScape自動駕駛資料集

為了刻畫高細粒度的靜態3d世界,apolloscape使用移動雷射雷達掃瞄儀器從reigl收集點雲。這種方法產生的三維點雲要比velodyne產生點雲更精確 更稠密。在採集車車頂上安裝有標定好的高解析度相機以每一公尺一幀的速率同步記錄採集車周圍的場景。而且,整個系統配有高精度gps和imu,相機的實...

NLP中的資料增強

相關方法合集見 較為簡單的資料增強的方法見 中所使用的方法如下 1.同義詞替換 sr synonyms replace 不考慮stopwords,在句子中隨機抽取n個詞,然後從同義詞詞典中隨機抽取同義詞,並進行替換。同義詞其詞向量可能也更加接近,在使用詞向量的模型中不一定有用 2.隨機插入 ri r...