3.vidloc:6-dof video-clip relocalization
回答:
前段時間一直忙著畢業**以及找工作,囧。我的畢業**就是研究的deepvo,已經答辯過了,我實現的結果是:
cnn-vo(採用卷積神經網路)
比現有基於cnn的方法好,比單目viso2好,但是不及雙目viso2
2.cnn-lstm-vo(採用迴圈卷積神經網路)
方法實現上和deepvo2017類似,不過細節有差別。比cnn-vo好那麼一點吧,然而不及雙目viso2。
zhou, tinghui, et al. "unsupervised learning of depth and ego-motion from video." arxiv preprint arxiv:1704.07813 (2017). ( (加入幾何約束,同時估計深度)
li r, wang s, long z, et al. undeepvo: monocular visual odometry through unsupervised deep learning[j]. arxiv preprint arxiv:1709.06841, 2017.( (雙目無監督)
vinet[1](aaai2017)、vidloc[2](cvpr2017)應該屬於絕對姿態估計,其中vinet結合了imu的資訊,利用cnn網路和兩個lstm網路達到姿態估計的目的。而vidloc應該是個加強版的posenet,引入lstm對連續幀進行絕對姿態估計,這兩篇文章好像出自於同乙個實驗室。絕對姿態估計有個問題就是必須在相同場景中訓練和測試,並沒有解決領域遷移問題。
icra2017上他們還有一篇文章deepvo[3],解決相對姿態估計問題,我嘗試復現過這篇文章的方法,但是效果一直不好。因為相鄰兩幀的相對姿態非常小,很多情況下轉角可能只有0.0幾度,要用深度學習方法去回歸感覺很不科學。希望有共同研究方向的人能復現下。
另外一篇deepvo[4]是2023年印度理工發表的一篇文章,這篇文章只採用cnn來回歸相對姿態,我復現過,效果跟**作者的實驗結果一致(在沒見過的場景下效果很差~~)。
[1] clark, ronald, et al. "vinet: visual-inertial odometry as a sequence-to-sequence learning problem." aaai. 2017. (
[2] clark, ronald, et al. "vidloc: 6-dof video-clip relocalization." arxiv preprint arxiv:1702.06521 (2017). (
[3] wang, sen, et al. "deepvo: towards end-to-end visual odometry with deep recurrent convolutional neural networks." robotics and automation (icra), 2017 ieee international conference on. ieee, 2017. (
參考:
深度學習SLAM 綜述部分翻譯
我們提供了一種跟定位和建圖相關,現有的深度學習方法的新分類法,來聯絡機械人技術,計算機視覺和機器學習領域。大致可以按里程計估算,建圖,全域性定位和slam為類別進行分類,如圖2展示的分類方法所示。里程計估計涉及到兩幀或者更多幀感測器資料,以平移和旋轉的方式來計算相關位姿的變化。他不斷的跟蹤自我運動,...
SLAM從入門到放棄 幾何資訊 深度學習
深度學習和幾何結構的結合,將極大提高現有演算法的效能。幾何描述了物理世界的結構 形狀 體積 深度 姿態 視差 運動 光流等資訊。語義表達利用語言來描述現實世界裡的關聯。比如,貓或者狗都是對某種物體的語言描述。語義有關的研究在計算機視覺領域廣受關注,許多高引用率的突破性的文章都和影象分類和語義分割有關...
slam結合深度學習相關進展彙總筆記
各種彙總 orbslam簡單結合檢測 orbslam基礎上做得比較全的結合深度學習的slam orbslam所有的改進 知乎上語義資訊與slam結合點 圖神經網路學習書籍 目標檢測結合rgbd稠密三維重建,主要用於重建動態物體 maskfusion real time recognition,tra...