CVPR 2015 Oral概覽 第二天上午

2021-07-05 19:34:07 字數 4053 閱讀 7754

第二天上午兩大主題:富有新意活力的影象與語言部分,以及在傳統中更上層樓的多視幾何。

d2-am-a. image and language

【show and tell: a neural image caption generator】

看圖說話:神經網路影象標題生成器

(google)

輸入,輸出一句描述性語言。

訓練:最大化訓練集中,標定的文字的似然函式。

在machine translation中,最近的潮流是:不在單獨翻譯單詞、對齊單詞,而是直接最大化p(target|source)

源語言用rnn進行encode,而後再用另乙個rnn進行decode。

本文用影象的cnn來代替第一部分。

【deep visual-semantic alignments for generating image descriptions】

用於生成影象描述的深度網路視覺語義對齊

(li fei-fei)

輸入,輸出一句描述性語言。同時給出片語和區域的對應關係。

把訓練集中標定的文字當做weak label,其中相鄰的片語表示中的某一未知區域。

使用multimodal rnn,把作為輸入,生成文字。

用於視覺識別和描述的長時rcnn

lstm (long-short term memory):一種時間遞迴神經網路。

【image specificity】

影象明晰度

可以用在影象搜尋中:

如果影象主題明確,則影象和搜尋詞的相似度很高,才能認為「命中」;如果影象主題模糊,則較低的相似度,也可以返回「命中」。

分類使用svr。主要貢獻是提出了這個問題。

別光聽,還要想:利用視覺常識處理非視覺任務

利用視覺資訊回答常識性問題。

一般的artificial agent系統搜尋網路上的文字,來回答簡單的常識性問題。

但有些問題網上沒人討論(可能太簡單),有些難以用語句描述,需要多層次推理。

正確答案d包含了推理:熊很危險->人需要危險應該遠離->躲起來可以遠離。

這樣的問題實際已經超出了recognition範疇。

訓練集:abstract scene dataset,人工生成的剪貼畫場景,包含文字描述。

對於乙個填空問題,首先「想象」還原其對應的場景,而後推斷填空內容。

這篇實際不涉及cv演算法,但利用了影象的思想。

**和資料庫公開。

【becoming the expert - interactive multi-class machine teaching】

成為專家 - 互動多類計算機教學

非常有趣的場景:計算機教人 machine teaching。

人在學習一類目標時,應該先學習有代表性的樣本,之後學習較模糊微妙的樣本。

本文的系統能夠自動根據學習者每一次的分類正誤,順序給出教學樣本。

用graph based semi-supervised learning給學生這個分類器建模。

每次給出的教學樣本,應該能最大降低未來的分類誤差。

最後一行為本文方法。這樣本也夠糊弄的...

d2-am-b. multiple view geometry

【reconstructing the world* in six days *(as captured by the yahoo 100 million image dataset)】

六天重建世界

sfm(structure-from-motion)問題。億量級影象,生成多個城市的多視角結構。

黑點為重建的三維結構,紅點為相機位置。

基本方法:找出有交疊的影象,這些交疊影象組成connected component;而後找出全部資料中的connected component。

由於資料量極大,需要用基於streaming的結構(序列化方法)找出connected component:即每張只載入一次,在一段時間之後即被丟棄。

用iconic image表示乙個connected component。隨著遍歷整個資料庫,更新這些iconic image。

【joint vanishing point extraction and tracking】

聯合滅點提取和跟蹤

(luc van gool, eth)

vp檢測:找出場景中的消失點。三種顏色的線段對應三個消失點。

球面上的麵片是離散化的vp位置,紅色的深淺表示vp處於此位置的可能性。

和球面相交的四個平面是由攝像機位置計算出來的interpretation planes(?)。

網路的分割結果決定,是否屬於同乙個物體。(完全沒懂)

魯棒的凸規劃估計攝像機位置

全是數學。

【efficient globally optimal consensus maximisation with tree search】

利用樹搜尋進行高效的全域性一致性搜尋

求解maximum consensus問題。

傳統方法:挑幾個,試一試,不能達到最優。

全域性方法:太慢。

本文提供一種高效的全域性方法。使用a*搜尋。

【r6p - rolling shutter absolute camera pose】

捲簾快門估計照相機姿態

absolute pose:從多張**恢復拍照時的相機姿態。

rolling shutter: 各個感光元件不同時**。當相機運動時,會造成影象變形。

大多數消費級照相機、手機都是用cmos感測器,而cmos感測器使用的就是rolling shutter。

使用這樣的影象恢復照相機姿態時,會受到干擾。本文使用解決這類問題。

【building proteins in a day: efficient 3d molecular reconstruction】

一天重建蛋白質結構

從一系列高雜訊、未對齊的2d投影(particle images),重建乙個高解析度的3d結構。

使用統計優化方法。用約1小時生成粗糙模型,再利用乙個importance sampling方法大大提高生成精密結構的速度。

2015阿里巴巴筆試題第二題

題目 寫乙個函式,輸入乙個二叉樹,樹中每個節點存放了乙個整數值,函式返回這棵二叉樹中相差最大的兩個節點間的差值絕對值。請注意程式效率。節點結構體 struct btnode 返回最大值和最小值的函式 int max int l int r int min int l,int r 方法一 int fi...

VS 2015 Enterprise第二大坑

繼上篇文章之後,你會繼續跌進大坑,這個坑困擾我一上午,同時也會讓你大跌眼鏡,如果你遇到了,那麼恭喜你提公升自身能力和解決能力的時機到了,當然你可以通過本文繼續少走不必要的彎路 我也是無意中發現的捷徑 這個問題出現源於你dnx執行環境的公升級,你可以在powershell中通過 dnvm list 檢...

VS 2015 Enterprise第二大坑

繼上篇文章之後,你會繼續跌進大坑,這個坑困擾我一上午,同時也會讓你大跌眼鏡,如果你遇到了,那麼恭喜你提公升自身能力和解決能力的時機到了,當然你可以通過本文繼續少走不必要的彎路 我也是無意中發現的捷徑 這個問題出現源於你dnx執行環境的公升級,你可以在powershell中通過 dnvm list 檢...