關於姿態估計演算法,常用基於特徵,直接匹配的配準方法。
使用傳統的方法尋找特徵(比如sift)或者深度學習的方法尋找特徵(比如lift、magic leap)來尋找對應的特徵點,並利用對極約束來估計相對變換矩陣。通過最小化重投影誤差來優化求解。包括求本質矩陣,然後得到r、t;3d-3d情況下的icp演算法;3d-2d情況下的pnp演算法。
優缺點:基於特徵的方法對於初始化是穩健的,並且能進行快速計算。但是依賴特徵點的檢測(比如紋理不明顯的影象提取的特徵點較少),並且不能充分利用影象資訊,傾向於過擬合到特徵豐富的區域。
注:a.lift:通過特徵點檢測、方向估計、特徵點描述三個相互聯通的網路組成,每乙個都是基於cnn神經網路。
圖1 lift網路架構圖
如圖所示,步驟如下:
1.給定乙個輸入影象,detector生成分數圖s。
2.在評分對映s上執行soft argmax代替傳統的極大值抑制演算法,生成潛在特徵點的位置x.
3.提取以x為中心的較小的patch,使用轉換層crop,作為方向估計網路的輸入。
4.方向估計網路**得到 主方向θ。
5.根據這個方向旋轉p,使用第二個轉換層,貼上rot,產生pθ。
6.將pθ送入描述符網路,生成特徵向量d。
b. magic leap的文章 「
toward geometric deep slam
」點跟蹤模型,介紹了一種出色的特徵點提取和匹配的方法。
圖2 網路架構圖
上圖所示,主要由magicpoint和magicwarp兩個網路組成。magicpoint網路對單一影象進行操作,提取二維影象中分布均勻的特徵點。magicwarp網路使用magicpoint生成的2d點態影象來**單應矩陣。
圖3 magicpoint 網路圖
使用vgg型別的網路作為編碼器,以及解碼器。對每乙個畫素生成其作為角點的概率。
圖4 magicwarp 網路圖
使用兩個2d點態圖作為輸入,注意這裡只使用點的位置作為輸入,而不是特徵點描述子,輸出兩幅變換的 單應矩陣。整個演算法執行速度非常快。
直接根據畫素亮度資訊或者畫素特徵資訊,估計相機的運動,可以完全不用計算關鍵點和描述子。通過最小化光度誤差或者特徵度量誤差來求解:
優缺點:需要對特定運動進行初始化。優化光度誤差的方法對光照變化和快速運動敏感,因為在它的優化步驟中採用了光流假設,而這假設在相同位置的光度項是恆定且連續的。有一些採用深度學習克服這些問題的研究。比如clkn 、demon等。對於三維空間中的相對姿態估計,影象變化也需要深度資訊,這在大多數情況下是未知的並且需要和運動引數一起估計。
注:a.clkn網路
創新:1.提出乙個網路結構,在卷積特徵上執行lk演算法,採用lk演算法來最小化相應畫素的特徵度量誤差,來估計兩個影象塊的2d變換,其中使用金字塔卷積神經網路學習特徵,每一次迭代中的高斯牛頓優化被認為是lk層,用於反向傳播。
2.級聯特徵學習方式,使網路從「粗-細」的優化。
圖5 clkn網路流程圖
由上圖所示,輸入待匹配的兩幅,經過相同的特徵提取網路,得到特徵圖。將特徵圖和初始轉換矩陣作為lk層的輸入,從而得到**的轉換矩陣。
圖6 lk層網路圖
上圖為lk層的網路示意圖。(a)是雅可比矩陣的生成網路,(b)是餘差網路,通過迴圈迭代,最後得到估計的r和t。
b.demon網路
訓練乙個端到端的卷積神經網路從連續的無約束的影象對中計算深度和相機運動。這個架構由多個堆疊的編碼器-解碼器網路組成,其核心部分是乙個迭代網路可以增強**功能。與傳統的姿態估計相比,結果更精確、更魯棒。
創新點:
這篇文章設計乙個架構,交替估計光流和相機運動、深度估計。網路使用了flownet架構,由乙個迭代部分與遞迴網路類似,共享權重。與通常在實踐中訓練遞迴網路時進行展開不同,增加了對當前minibatch追加前一次訓練迭代結果的**。這種訓練方法可以節省大量記憶體,在訓練過程中包含更多迭代結果。
圖7 網路架構圖
demon使用乙個影象對作為輸入,**第乙個影象的深度圖和第二個相機的相對位姿。網路由一系列編碼器-解碼器網路組成,在光流,深度圖,位姿估計上進行迭代;精細化網路可以提高最終深度圖的精度。
圖8 迭代和精細化網路結構圖
灰色字型輸入部分只用於迭代網路。第乙個編碼器-解碼器估計光流和它在影象對和前一估計的置信度。第二個編碼器-解碼器估計深度圖和表面法線。在編碼器後面增加全連線網路估計相機運動r,t和深度尺度因子s。尺度因子s是深度相對於相機運動的尺度。
標記姿態估計
在三維空間中,可通過標記角點的精確位置來估計攝像機與標記之間的變換。此操作稱為二維到三維的姿態估計。該估計過程會在物體與攝像機之間找到乙個歐氏空間的變換 該變換僅由旋轉和座標平移構成 先來觀察右圖 圖中的c表示攝像機中心,點p1 p4是現實座標系中的三維點,而p1 p4是將點p1 p4投影到攝像機的...
人臉姿態估計
由於需要在採集的集中選擇與待識別人臉姿態最接近的與之進行對比,因此考慮使用人臉姿態估計計算人臉在三維空間的角度,然後找出與之最接近的角度。在網上查閱資料發現大多都是演算法介紹,缺少原始碼,最終在github上找到乙個基於dlib68點檢測和opencv計算角度的專案 head pose estima...
頭部姿態估計
通常認為人體頭部可以建模為乙個無實體的剛體物件。根據這種假設,在姿勢上人類的頭部被限制為3個自由度,其特徵分別是俯仰,坡度和偏航角在下圖中體現。人臉姿態估計,顧名思義,給定一張人臉影象,確定其姿態,姿態由什麼構成呢?很簡單 pitch,yaw,roll 三種角度,分別代表上下翻轉,左右翻轉,平面內旋...