有關深度估計的幾篇文章的閱讀筆記

2021-09-28 16:15:42 字數 3098 閱讀 7805

深度估計對於場景估計、物體識別等計算機視覺方向有重要作用;

嚴格來說,深度是指物體表面到薄凸透鏡的第一主平面的距離;

實體視覺(stereopsis)方法是比較流行的方法,該方法基於測量雙目視差(binocular disparity),然後用三角測量(triangulation)方法修復3d結構,然後用特徵提取和匹配來衡量差異性。對應過程是該方法最複雜的部分。

最近有一種基於攝像機焦距(camera focus)的新方法[引文9],稱為dff法(ddistance from focus),用散焦或模糊的數量來估計距離。該方法只需要一張圖就可以重構深度資訊,並且不需要特徵對應(feature correspondence)過程。引文9認為模糊的邊(blurred edge)是由正常聚焦的邊與可以近似為2d高斯分布g(r, σ)的點擴散函式(point spread function)卷積成的。空間常數σ與深度直接有關,深度由散焦(defocus)數量決定。具體分析在引文9和11. 單一點光源在散焦影象上的點擴散函式取決於光的波長和透鏡系統的特性。分析認為對於白色光,不同波長的光所獲得的點擴散函式之和具有這個2d高斯分布的一般形式。

文獻12把點擴散函式推廣到旋轉對稱(rotationally moment)形式,採用二階中心矩做引數σ,用一種近似形式來估計深度。

以上兩種方法都用二階變異(second-order differentiation operation)來估計σ,但是二階變異對雜訊很敏感,本文提出一種廣義演算法,把σ分解為σx和σy,因此也不再需要邊緣取向(edge orientation)。

當乙個點不在凸透鏡的焦點上的時候,它在成像平面上成的像就是乙個模糊的圈,稱為模糊圈(blur circle)。實際的模糊點的個數還要取決於透鏡系統和該點距離實際焦點的距離。

透鏡公式告訴我們:f−1

=d−1

+v−1

f^=d^+v^

f−1=d−

1+v−

1其中f

ff是透鏡的焦距。

經過一些轉化和加入高斯分布,得到了文章中公式(3)的形式。d為深度,d的估計方法在section ii的最後一段。

文章認為觀測到的影象(observed unfocused image)f(a,b)是由聚焦影象(well-focused image)i(x,y)與高斯函式g(x,y,σ)卷積得到的,即公式(4)。經過一系列轉化,σ分解為x方向和y方向,得到section iv的前兩個公式,這就是本文的最終優化目標。

文章最終用牛頓法求解。由於優化目標不算凸優化,因此使用觀測到的影象作為g1和g2的初始值。

大體如此,求解和一部分推導沒完全看懂。

rigorously speaking 嚴格來講

the novelty of … is ···的新奇之處是

the validity of 正確性

let us assume that 讓我們假設

with respect to 關於,至於

convergence property 收斂性

take a coarse search 做乙個粗搜尋

如果沒有絕對的深度度量線索,如雙目視差、移動(motion)、散焦(defocus),從觀測者到場景的距離就無法得知。色差、邊緣、連線可能提供場景的3d模型,卻無法提供尺度。一種可能的絕對深度資訊渠道是已知物體的投影尺度(image size)。然而這又帶來了識別問題,也比較難做。本文提出了一種基於整體場景結構的深度估計方法,不依賴於特定物體。

文章認為,空間結構、場景中主要物體的尺度和位置會隨著到觀測者的距離的變化而變化,而且這種變化是常規的可**的。通過識別影象中表現出來的結構,這種結構性的規律穩定到可以用來估計場景的平均深度。

多數深度資訊修復技術關注的是相對深度,如從陰影(shading)、紋理變化、邊界和交合、對稱影象、分形維度(fractal dimension)來塑性(shape),或者從其他的圖形提示,例如閉合(occlusions)、相對尺度、相對地平線的海拔等等。這些方法應用場景有限。

絕對(absolute)深度估計相關研究也很多,大多依賴於有限資訊源,如雙目視覺、移動視差、散焦等等。

然而在普通視覺下也應該能估計深度資訊。有一種資訊可以利用,是熟悉物體的尺度,如臉,身體,車輛等等。然而這要求在非約束條件下做影象分割,難做且不可靠。

文章扯了很多區域性/全域性傅利葉/譜,很冗長。前面的introduction算是看懂了一些東西。從全域性圖和區域性圖出發做場景的平均深度估計,又分為人工場景和自然場景,主要是基於em演算法做估計。

we demonstrate that 我們論證/證明了

infer 推論

illustrate 闡述

remains still difficult and unreliable 仍然很難且不可信

it is acknowledged that 公認

our objective is to 我們的目標是

本文提出了一種新的訓練目標,使得cnn能夠估計深度值,儘管沒有真實的深度值。通過探索極線約束和影象重構損失,用網路獲取了不一致影象。提出了一種新的損失函式。

在運動結構(structure from motion)、x光成像、雙目和多視角立體系統(multi-view stereo)等方面已經有了豐碩成果,然而他們多假設場景中可以獲取多個視角的資料。為了解決這個問題,提出了很多有監督的單目深度估計方法,使用ground truth depth data做線下訓練。但是這些方法的應用侷限於可以大規模獲取畫素級別深度值對應的場景中。

深度估計的應用,文章列舉了很多。

文章的網路是用合成深度來訓練的,只是不需要ground truth深度。已有的類似方法要麼輸出影象解析度不夠,要麼效果不夠好。

對於左右兩個視角,文章提出求解乙個dl和dr,分別用於右側視角和左側視角重構彼此,其中d指的是影象差異,是模型需要**的精確到畫素的乙個標量。

通過推論左側視角如何捲曲到右側,文章的網路**了深度。

測試時,網路在最佳尺度上**視角差異性,要求與輸入影象解析度相同。然後用已知的攝像機baseline和距離訓練集的焦點長度,可以把差異圖轉化為深度圖。

構建的新損失函式沒細看,大致是分三部分,一部分encourage重構影象與對應輸入趨於相似,一部分enforce流暢的差異圖,一部分perfer左右差異圖具有一致性。

VC遠端除錯相關的幾篇文章

8學院 vc教程 發布日期 2009年04月17日 vc開發環境之所以提供遠端除錯的能力,是因為有些情況下單機除錯會讓你崩潰掉 比如,除錯gui程式的wm paint訊息,因為要單步除錯,所以偵錯程式會對介面的重繪產生 heisenberg不確定性原理 當然還有些別的情況也適用,比如程式在測試環境執...

Windows Phone開發的十幾篇文章(待續)

windows phone開發 1 概論 windows phone開發 2 豎立自信,初試鋒茫 windows phone開發 3 棋子未動,先觀全域性 windows phone開發 4 框架和頁 windows phone開發 5 室內裝修 windows phone開發 6 處理螢幕方向的改...

Windows Phone開發的十幾篇文章(待續)

qianqianlianmeng windows phone開發 1 概論 windows phone開發 2 豎立自信,初試鋒茫 windows phone開發 3 棋子未動,先觀全域性 windows phone開發 4 框架和頁 windows phone開發 5 室內裝修 windows p...