單目視覺里程計效能估計

2022-02-04 05:37:14 字數 3084 閱讀 9370

單目視覺里程計效能估計 

d3vo: deep depth, deep pose and deep uncertaintyfor monocular visual odometry

摘要cvpr2020一篇關於視覺里程計和深度估計結合的文章,一作是很多人熟悉的楊楠大佬。這篇文章也是繼dvso又一篇dso與深度估計結合的文章。

背景知識

深度學習已經席捲了計算機視覺的大部分領域——不僅是像物件分類、檢測和分割這樣的高階任務[30,39,58],還有像光流估計[12,65]和興趣點檢測和描述[11,13,79]這樣的低階任務。然而,在同時定位和對映(slam)或視覺里程計(vo)領域,傳統的基於幾何的方法(16、17、53)仍然佔主導地位。雖然單目演算法[16,52]具有優勢的硬體成本和較少的校準工作,由於尺度漂移[62,77]和低魯棒性,無法實現與立體聲[53,74]或視覺慣性里程計(vio)[44,54,56,72]相比的競爭效能。通過利用深層神經網路來解決這個問題已經做了很多努力[48,68,80,83]。研究表明,在深度單目深度估計網路[26,27,43,78]中,深度網路能夠通過從大量資料中學習先驗知識來估計具有一致尺度的深度圖,從而提高了單目vo的效能[42]。

然而,用這種方法,深層神經網路只能在有限的程度上使用。無監督單目深度估計網路的最新進展[26,86]表明,相鄰單目幀的姿態可以與深度一起**。由於深部神經網路的姿態估計具有很高的魯棒性,有乙個問題產生了:深部**的姿態是否可以用來提高傳統的vo?另一方面,由於slam/vo本質上是乙個狀態估計問題,其中不確定性起著重要的作用[19,63,69],同時許多基於學習的方法已經開始估計不確定性,下乙個問題是,如何將這種不確定性**納入基於優化的vo中?

主要貢獻

2.  儘管已經對光照變換進行了建模,但是光照並不是唯一違反光照不變假設的因素(動態物體等等也會),所以作者還對光度不確定性進行了**,降低違反假設的畫素的權重,這個學習到的權重函式可以替換傳統vo系統裡面基於經驗設定的加權函式。

3.  魯棒性也是vo演算法的乙個特別重要的因素,因此作者將**出的位姿整合進前端跟蹤和後端非線性優化中。在前端跟蹤模組,作者用**的位姿去替換之前的勻速運動模型,另外這個位姿也作為直接影象校準的平方正則項。在後端優化中,作者提出了位姿能量項和之前的能量目標函式放在一起優化。

演算法流程

1.自監督深度估計

函式的目的是最小化靜態雙目之間的光度重投影誤差損失,v表示所有的畫素, it表示左目, it'包括相鄰幀和右目. 函式是由ssim和l1loss組成,這個目前比較固定的深度估計損失函式搭配。

將修改後的i帶入原來的目標函式就是新的的深度估計自監督損失。但是僅僅考慮光照變換是遠遠不夠的,所以正如前面提到的, 作者對光度不確定性進行了**,所以自監督損失函式又引入了有關不確定性的引數,

最終的損失函式是自監督損失和多尺度的正則化損失之和。

其中,s代表多尺度因子。

系統框圖,最左邊是網路結構,中間是視覺里程計視覺化結果,最右邊是網路輸入和輸出視覺化。

2.1 光度能量

d3vo目的優化如下光度能量函式,

這個能量函式和dso中的一致,不再過多介紹,本文中的不同點是作者引入了virtual stereo term,關於這一點可以去看看dvso的原文.

這個新增項會優化vo得到的深度,使其和深度網路的結果保持一致。

2.2 位姿能量

與傳統使用勻速運動模型的vo系統不同,作者利用連續幀之間**出的位姿新建了乙個非線性因子圖,每有乙個最新關鍵幀就會建立乙個新的因子圖。另外,來自深度網路**出的位姿會作為當前幀和最後一幀的因子(關於這部分可以去看作者的補充材料)。

這個位姿能量其實可以看做vio系統中的imu預積分先驗,因為下面新的能量函式和vidso特別像. 通過引入**出的位姿作為初始化來提公升跟蹤和非線性優化模組,同時也把他們作為正則項加入到光度ba中。

實驗結果

作者分別再kitti和euroc資料集上進行了深度估計評測。

kitti

上的深度估計結果對比,uncer代表光度不確定性,ab代表亮度變換引數,full代表兩個全都包括。

作者提出的深度估計模組優於之前的sota演算法monodepth2.引入光照變換引數和不確定性被證實確實可以提公升深度估計的效果.

euroc

資料集上的結果

資料集上的視覺化結果,最左邊是原輸入影象,中間是深度估計結果,最右側是不確定性視覺化結果.

kitti

資料集上的視覺里程計結果, d3v在這些sequence上的表現超過之前的傳統slam工作.

與其他深度估計位姿估計網路在09,10上的評測結果對比,d3vo的效能也是最好的.

不同vo系統在euroc資料集上的位姿結果對比

單目vo系統,vio系統和深度網路在euroc資料集上的量化結果對比

視覺里程計學習

大四要做畢業設計了,因為保送去了外校,決定畢業 跟研究生導師做。研究生導師是做gps導航的,想發展視覺導航方向,就想讓我做視覺里程計,嘗試把視覺定位研究一下。基本沒有計算機視覺的基礎的我,就這樣子誤打誤撞進了計算機這個深坑。後來發現了清華博士高翔寫的閒半居士部落格,在這裡有了乙個簡單的入門。他這裡還...

里程計 推算定位與視覺里程計

以下內容翻譯自wiki百科。里程計是一種利用從移動感測器獲得的資料來估計物體位置隨時間的變化而改變的方法。該方法被用在許多種機械人系統 輪式或者腿式 上面,來估計,而不是確定這些機械人相對於初始位置移動的距離。這種方法對由速度對時間積分來求得位置的估計時所產生的誤差十分敏感。快速 精確的資料採集,裝...

里程計 推算定位與視覺里程計

以下內容翻譯自wiki百科。里程計是一種利用從移動感測器獲得的資料來估計物體位置隨時間的變化而改變的方法。該方法被用在許多種機械人系統 輪式或者腿式 上面,來估計,而不是確定這些機械人相對於初始位置移動的距離。這種方法對由速度對時間積分來求得位置的估計時所產生的誤差十分敏感。快速 精確的資料採集,裝...