CVPR 2015 Oral概覽第二天上午

第二天上午兩大主題：富有新意活力的影象與語言部分，以及在傳統中更上層樓的多視幾何。

d2-am-a. image and language

【show and tell: a neural image caption generator】

看圖說話：神經網路影象標題生成器

(google)

輸入，輸出一句描述性語言。

訓練：最大化訓練集中，標定的文字的似然函式。

在machine translation中，最近的潮流是：不在單獨翻譯單詞、對齊單詞，而是直接最大化p(target|source)

源語言用rnn進行encode，而後再用另乙個rnn進行decode。

本文用影象的cnn來代替第一部分。

【deep visual-semantic alignments for generating image descriptions】

用於生成影象描述的深度網路視覺語義對齊

(li fei-fei)

輸入，輸出一句描述性語言。同時給出片語和區域的對應關係。

把訓練集中標定的文字當做weak label，其中相鄰的片語表示中的某一未知區域。

使用multimodal rnn，把作為輸入，生成文字。

用於視覺識別和描述的長時rcnn

lstm (long-short term memory)：一種時間遞迴神經網路。

【image specificity】

影象明晰度

可以用在影象搜尋中：

如果影象主題明確，則影象和搜尋詞的相似度很高，才能認為「命中」；如果影象主題模糊，則較低的相似度，也可以返回「命中」。

分類使用svr。主要貢獻是提出了這個問題。

別光聽，還要想：利用視覺常識處理非視覺任務

利用視覺資訊回答常識性問題。

一般的artificial agent系統搜尋網路上的文字，來回答簡單的常識性問題。

但有些問題網上沒人討論（可能太簡單），有些難以用語句描述，需要多層次推理。

正確答案d包含了推理：熊很危險->人需要危險應該遠離->躲起來可以遠離。

這樣的問題實際已經超出了recognition範疇。

訓練集：abstract scene dataset，人工生成的剪貼畫場景，包含文字描述。

對於乙個填空問題，首先「想象」還原其對應的場景，而後推斷填空內容。

這篇實際不涉及cv演算法，但利用了影象的思想。

**和資料庫公開。

【becoming the expert - interactive multi-class machine teaching】

成為專家 - 互動多類計算機教學

非常有趣的場景：計算機教人 machine teaching。

人在學習一類目標時，應該先學習有代表性的樣本，之後學習較模糊微妙的樣本。

本文的系統能夠自動根據學習者每一次的分類正誤，順序給出教學樣本。

用graph based semi-supervised learning給學生這個分類器建模。

每次給出的教學樣本，應該能最大降低未來的分類誤差。

最後一行為本文方法。這樣本也夠糊弄的...

d2-am-b. multiple view geometry

【reconstructing the world* in six days *(as captured by the yahoo 100 million image dataset)】

六天重建世界

sfm(structure-from-motion)問題。億量級影象，生成多個城市的多視角結構。

黑點為重建的三維結構，紅點為相機位置。

基本方法：找出有交疊的影象，這些交疊影象組成connected component；而後找出全部資料中的connected component。

由於資料量極大，需要用基於streaming的結構（序列化方法）找出connected component：即每張只載入一次，在一段時間之後即被丟棄。

用iconic image表示乙個connected component。隨著遍歷整個資料庫，更新這些iconic image。

【joint vanishing point extraction and tracking】

聯合滅點提取和跟蹤

(luc van gool, eth)

vp檢測：找出場景中的消失點。三種顏色的線段對應三個消失點。

球面上的麵片是離散化的vp位置，紅色的深淺表示vp處於此位置的可能性。

和球面相交的四個平面是由攝像機位置計算出來的interpretation planes(?)。

網路的分割結果決定，是否屬於同乙個物體。（完全沒懂）

魯棒的凸規劃估計攝像機位置

全是數學。

【efficient globally optimal consensus maximisation with tree search】

利用樹搜尋進行高效的全域性一致性搜尋

求解maximum consensus問題。

傳統方法：挑幾個，試一試，不能達到最優。

全域性方法：太慢。

本文提供一種高效的全域性方法。使用a*搜尋。

【r6p - rolling shutter absolute camera pose】

捲簾快門估計照相機姿態

absolute pose：從多張**恢復拍照時的相機姿態。

rolling shutter: 各個感光元件不同時**。當相機運動時，會造成影象變形。

大多數消費級照相機、手機都是用cmos感測器，而cmos感測器使用的就是rolling shutter。

使用這樣的影象恢復照相機姿態時，會受到干擾。本文使用解決這類問題。

【building proteins in a day: efficient 3d molecular reconstruction】

一天重建蛋白質結構

從一系列高雜訊、未對齊的2d投影（particle images），重建乙個高解析度的3d結構。

使用統計優化方法。用約1小時生成粗糙模型，再利用乙個importance sampling方法大大提高生成精密結構的速度。

2015阿里巴巴筆試題第二題

題目寫乙個函式，輸入乙個二叉樹，樹中每個節點存放了乙個整數值，函式返回這棵二叉樹中相差最大的兩個節點間的差值絕對值。請注意程式效率。節點結構體 struct btnode 返回最大值和最小值的函式 int max int l int r int min int l,int r 方法一 int fi...

VS 2015 Enterprise第二大坑

繼上篇文章之後，你會繼續跌進大坑，這個坑困擾我一上午，同時也會讓你大跌眼鏡，如果你遇到了，那麼恭喜你提公升自身能力和解決能力的時機到了，當然你可以通過本文繼續少走不必要的彎路我也是無意中發現的捷徑這個問題出現源於你dnx執行環境的公升級，你可以在powershell中通過 dnvm list 檢...

CVPR 2015 Oral概覽 第二天上午

2015阿里巴巴筆試題第二題

VS 2015 Enterprise第二大坑

VS 2015 Enterprise第二大坑

相關推薦

CVPR 2015 Oral概覽第二天上午