4 評價
ssd-6d網路模型的演算法流程為:
輸入一張299×
\times
× 299的彩色影象到backbone網路(inceptionv4)中,得到6個不同尺度的特徵圖;
接著對於每乙個特徵圖,通過3×
\times
× 3的滑動視窗得到特徵圖上每個畫素點的分類和回歸結果,分類結果包括c
cc種物體類別、取樣得到的v
vv個viewpoints(可以理解為緯度)和r
rr個in-plane rotations(可以理解為經度),回歸的結果包括4個矩形框offset引數。假設每乙個畫素點回歸b
bb個矩形框,則通道維維數為b×(
c+v+
r+4)
b\times (c+v+r+4)
b×(c+v
+r+4
);最後,對於每一種物體類別的**框,首先根據分類值大小進行排序,然後按照iou值進行nms處理。
ssd-6d模型的損失函式和目標檢測領域的ssd和yolo類似,但是包括了viewpoint和in-plane rotation的分類誤差:
l (p
os,n
eg):
=∑b∈
negl
clas
s+∑b
∈pos
(lcl
ass+
αlfi
t+βl
view
+γli
npla
ne)l(pos, neg):=\sum_l_+\sum_(l_+\alpha l_+\beta l_+\gamma l_)
l(pos,
neg)
:=b∈
neg∑
lcl
ass
+b∈p
os∑
(lcl
ass
+αlf
it+
βlvi
ew+
γlin
plan
e)式中,pos
pospo
s和ne
gneg
neg分別代表訓練集中的正負樣本;此外,lcl
assl_
lclass
、lvie
wl_lview
和l in
plan
el_linpla
ne本質上都為分類誤差,故這裡採用softmax,lfi
tl_lfit
為回歸誤差,故這裡採用smooth l1-norm。
對於旋轉對稱物體,viewpoint只在乙個弧度上取值,如上圖中綠色點;對於半對稱物體,只在某乙個半圓內取值,如紅色點部分。
按照網路輸出的viewpoint和in-plane分類結果,得到對應的旋轉向量rrr;
將物體的三維模型按照空間朝向(也即旋轉向量r
rr)渲染在距離相機座標系z
=0.5
z=0.5
z=0.
5的位置;
根據下圖中的比例關係計算得到z
sz_s
zs,其中l
rl_r
lr和l
sl_s
ls為影象上矩形框的對角線長度;
給定相機內參和矩形框的中心座標(u,
v)(u,v)
(u,v
),根據相機模型計算得到三維平移向量ttt:
x s=
(u−c
x)zs
fxx_s=\frac
xs=fx
(u−
cx)
zs
y s=
(v−c
y)zs
fyy_s=\frac
ys=fy
(v−
cy)
zs
由於空間朝向是按照viewpoint和in-plane兩個維度上取樣的,所以首先就有取樣誤差的引入;再者這樣取樣方法不能保證空間球面上取樣的均勻性,也就是靠近赤道的地方取樣點稀疏,靠近兩極的地方取樣點比較密集。
如何理解物體的6D位姿估計任務?
如何 感性 地理解物體的6d姿態估計任務?答 三維世界中,比如我們開車行駛在道路上,我們不僅需要關注前方是否有車輛,而且更在意前方車輛的狀態,或者說姿態,是正在轉彎,還是正在駛向自己,或是遠離自己。其實這就是乙個物體的6d姿態估計任務。物體就是前方車輛,其在當前時刻,並在我方視角下,它的三維空間位置...
6D位姿識別 BB8
2 三維位姿 3 旋轉對稱物體的位姿估計 這一階段的任務是在影象中識別物體的中心點,分為兩個階段 將尺寸為512 times 384的影象分割為128 times 128大小的影象塊 將影象塊輸入到vgg分類網路 將最後全連線層的輸出改為16 16 256 16 times 16 256 16 16...
點雲 相機位姿 什麼是物體6D位姿?
在一些有關物體6d位姿估計或者機械人抓取的 中,我們常會聽到乙個詞 物體6d位姿估計 6d object pose estimation 那什麼是物體的6d位姿呢?它和slam中的相機6d位姿一樣嗎?6d是指6個自由度,代表了3個自由度的位移 也叫平移 translation 以及3個自由度的空間旋...