第二天上午兩大主題:富有新意活力的影象與語言部分,以及在傳統中更上層樓的多視幾何。
d2-am-a. image and language
【show and tell: a neural image caption generator】
看圖說話:神經網路影象標題生成器
(google)
輸入,輸出一句描述性語言。
訓練:最大化訓練集中,標定的文字的似然函式。
在machine translation中,最近的潮流是:不在單獨翻譯單詞、對齊單詞,而是直接最大化p(target|source)
源語言用rnn進行encode,而後再用另乙個rnn進行decode。
本文用影象的cnn來代替第一部分。
【deep visual-semantic alignments for generating image descriptions】
用於生成影象描述的深度網路視覺語義對齊
(li fei-fei)
輸入,輸出一句描述性語言。同時給出片語和區域的對應關係。
把訓練集中標定的文字當做weak label,其中相鄰的片語表示中的某一未知區域。
使用multimodal rnn,把作為輸入,生成文字。
用於視覺識別和描述的長時rcnn
lstm (long-short term memory):一種時間遞迴神經網路。
【image specificity】
影象明晰度
可以用在影象搜尋中:
如果影象主題明確,則影象和搜尋詞的相似度很高,才能認為「命中」;如果影象主題模糊,則較低的相似度,也可以返回「命中」。
分類使用svr。主要貢獻是提出了這個問題。
別光聽,還要想:利用視覺常識處理非視覺任務
利用視覺資訊回答常識性問題。
一般的artificial agent系統搜尋網路上的文字,來回答簡單的常識性問題。
但有些問題網上沒人討論(可能太簡單),有些難以用語句描述,需要多層次推理。
正確答案d包含了推理:熊很危險->人需要危險應該遠離->躲起來可以遠離。
這樣的問題實際已經超出了recognition範疇。
訓練集:abstract scene dataset,人工生成的剪貼畫場景,包含文字描述。
對於乙個填空問題,首先「想象」還原其對應的場景,而後推斷填空內容。
這篇實際不涉及cv演算法,但利用了影象的思想。
**和資料庫公開。
【becoming the expert - interactive multi-class machine teaching】
成為專家 - 互動多類計算機教學
非常有趣的場景:計算機教人 machine teaching。
人在學習一類目標時,應該先學習有代表性的樣本,之後學習較模糊微妙的樣本。
本文的系統能夠自動根據學習者每一次的分類正誤,順序給出教學樣本。
用graph based semi-supervised learning給學生這個分類器建模。
每次給出的教學樣本,應該能最大降低未來的分類誤差。
最後一行為本文方法。這樣本也夠糊弄的...
d2-am-b. multiple view geometry
【reconstructing the world* in six days *(as captured by the yahoo 100 million image dataset)】
六天重建世界
sfm(structure-from-motion)問題。億量級影象,生成多個城市的多視角結構。
黑點為重建的三維結構,紅點為相機位置。
基本方法:找出有交疊的影象,這些交疊影象組成connected component;而後找出全部資料中的connected component。
由於資料量極大,需要用基於streaming的結構(序列化方法)找出connected component:即每張只載入一次,在一段時間之後即被丟棄。
用iconic image表示乙個connected component。隨著遍歷整個資料庫,更新這些iconic image。
【joint vanishing point extraction and tracking】
聯合滅點提取和跟蹤
(luc van gool, eth)
vp檢測:找出場景中的消失點。三種顏色的線段對應三個消失點。
球面上的麵片是離散化的vp位置,紅色的深淺表示vp處於此位置的可能性。
和球面相交的四個平面是由攝像機位置計算出來的interpretation planes(?)。
網路的分割結果決定,是否屬於同乙個物體。(完全沒懂)
魯棒的凸規劃估計攝像機位置
全是數學。
【efficient globally optimal consensus maximisation with tree search】
利用樹搜尋進行高效的全域性一致性搜尋
求解maximum consensus問題。
傳統方法:挑幾個,試一試,不能達到最優。
全域性方法:太慢。
本文提供一種高效的全域性方法。使用a*搜尋。
【r6p - rolling shutter absolute camera pose】
捲簾快門估計照相機姿態
absolute pose:從多張**恢復拍照時的相機姿態。
rolling shutter: 各個感光元件不同時**。當相機運動時,會造成影象變形。
大多數消費級照相機、手機都是用cmos感測器,而cmos感測器使用的就是rolling shutter。
使用這樣的影象恢復照相機姿態時,會受到干擾。本文使用解決這類問題。
【building proteins in a day: efficient 3d molecular reconstruction】
一天重建蛋白質結構
從一系列高雜訊、未對齊的2d投影(particle images),重建乙個高解析度的3d結構。
使用統計優化方法。用約1小時生成粗糙模型,再利用乙個importance sampling方法大大提高生成精密結構的速度。
2015阿里巴巴筆試題第二題
題目 寫乙個函式,輸入乙個二叉樹,樹中每個節點存放了乙個整數值,函式返回這棵二叉樹中相差最大的兩個節點間的差值絕對值。請注意程式效率。節點結構體 struct btnode 返回最大值和最小值的函式 int max int l int r int min int l,int r 方法一 int fi...
VS 2015 Enterprise第二大坑
繼上篇文章之後,你會繼續跌進大坑,這個坑困擾我一上午,同時也會讓你大跌眼鏡,如果你遇到了,那麼恭喜你提公升自身能力和解決能力的時機到了,當然你可以通過本文繼續少走不必要的彎路 我也是無意中發現的捷徑 這個問題出現源於你dnx執行環境的公升級,你可以在powershell中通過 dnvm list 檢...
VS 2015 Enterprise第二大坑
繼上篇文章之後,你會繼續跌進大坑,這個坑困擾我一上午,同時也會讓你大跌眼鏡,如果你遇到了,那麼恭喜你提公升自身能力和解決能力的時機到了,當然你可以通過本文繼續少走不必要的彎路 我也是無意中發現的捷徑 這個問題出現源於你dnx執行環境的公升級,你可以在powershell中通過 dnvm list 檢...