6DoF位姿估計之SSD 6D

2021-10-21 17:44:41 字數 2358 閱讀 2285

4 評價

ssd-6d網路模型的演算法流程為:

輸入一張299×

\times

× 299的彩色影象到backbone網路(inceptionv4)中,得到6個不同尺度的特徵圖;

接著對於每乙個特徵圖,通過3×

\times

× 3的滑動視窗得到特徵圖上每個畫素點的分類和回歸結果,分類結果包括c

cc種物體類別、取樣得到的v

vv個viewpoints(可以理解為緯度)和r

rr個in-plane rotations(可以理解為經度),回歸的結果包括4個矩形框offset引數。假設每乙個畫素點回歸b

bb個矩形框,則通道維維數為b×(

c+v+

r+4)

b\times (c+v+r+4)

b×(c+v

+r+4

);最後,對於每一種物體類別的**框,首先根據分類值大小進行排序,然後按照iou值進行nms處理。

ssd-6d模型的損失函式和目標檢測領域的ssd和yolo類似,但是包括了viewpoint和in-plane rotation的分類誤差:

l (p

os,n

eg):

=∑b∈

negl

clas

s+∑b

∈pos

(lcl

ass+

αlfi

t+βl

view

+γli

npla

ne)l(pos, neg):=\sum_l_+\sum_(l_+\alpha l_+\beta l_+\gamma l_)

l(pos,

neg)

:=b∈

neg∑

​lcl

ass​

+b∈p

os∑​

(lcl

ass​

+αlf

it​+

βlvi

ew​+

γlin

plan

e​)式中,pos

pospo

s和ne

gneg

neg分別代表訓練集中的正負樣本;此外,lcl

assl_

lclass

​、lvie

wl_lview​

和l in

plan

el_linpla

ne​本質上都為分類誤差,故這裡採用softmax,lfi

tl_lfit

​為回歸誤差,故這裡採用smooth l1-norm。

對於旋轉對稱物體,viewpoint只在乙個弧度上取值,如上圖中綠色點;對於半對稱物體,只在某乙個半圓內取值,如紅色點部分。

按照網路輸出的viewpoint和in-plane分類結果,得到對應的旋轉向量rrr;

將物體的三維模型按照空間朝向(也即旋轉向量r

rr)渲染在距離相機座標系z

=0.5

z=0.5

z=0.

5的位置;

根據下圖中的比例關係計算得到z

sz_s

zs​,其中l

rl_r

lr​和l

sl_s

ls​為影象上矩形框的對角線長度;

給定相機內參和矩形框的中心座標(u,

v)(u,v)

(u,v

),根據相機模型計算得到三維平移向量ttt:

x s=

(u−c

x)zs

fxx_s=\frac

xs​=fx

​(u−

cx​)

zs​​

y s=

(v−c

y)zs

fyy_s=\frac

ys​=fy

​(v−

cy​)

zs​​

由於空間朝向是按照viewpoint和in-plane兩個維度上取樣的,所以首先就有取樣誤差的引入;再者這樣取樣方法不能保證空間球面上取樣的均勻性,也就是靠近赤道的地方取樣點稀疏,靠近兩極的地方取樣點比較密集。

如何理解物體的6D位姿估計任務?

如何 感性 地理解物體的6d姿態估計任務?答 三維世界中,比如我們開車行駛在道路上,我們不僅需要關注前方是否有車輛,而且更在意前方車輛的狀態,或者說姿態,是正在轉彎,還是正在駛向自己,或是遠離自己。其實這就是乙個物體的6d姿態估計任務。物體就是前方車輛,其在當前時刻,並在我方視角下,它的三維空間位置...

6D位姿識別 BB8

2 三維位姿 3 旋轉對稱物體的位姿估計 這一階段的任務是在影象中識別物體的中心點,分為兩個階段 將尺寸為512 times 384的影象分割為128 times 128大小的影象塊 將影象塊輸入到vgg分類網路 將最後全連線層的輸出改為16 16 256 16 times 16 256 16 16...

點雲 相機位姿 什麼是物體6D位姿?

在一些有關物體6d位姿估計或者機械人抓取的 中,我們常會聽到乙個詞 物體6d位姿估計 6d object pose estimation 那什麼是物體的6d位姿呢?它和slam中的相機6d位姿一樣嗎?6d是指6個自由度,代表了3個自由度的位移 也叫平移 translation 以及3個自由度的空間旋...