視覺與語言領域年度進展概述

2021-09-23 04:52:32 字數 3209 閱讀 3058

視覺和語言(vision and language)其實是乙個交叉領域。想要建立視覺和自然語言的橋梁,不僅需要理解視覺,也要知道如何對自然語言進行建模。同時,這個橋梁也可以是雙向的,既可以從視覺生成文字(如caption、sentiment、visual question answering等),也可以從文字到視覺(如generation、search)。

image captioning 的基本思路**於語言翻譯,其流程大體是先使用 cnn 對進行編碼得到視覺特徵表示,然後使用 rnn 對這個特徵進行解碼來生成影象描述。在提取視覺特徵時,可以使用高階語義特徵和注意力機制等計算機視覺領域常用的方法,也可以直接使用自動編碼器進行處理。

image captioning方面的工作可以總結為「image captioning with x」,其中的 x 可以是 visual attention, visual attributes, entity recognition, dense caption 和 reinforcement learning等模組。ibm 最近的一篇 cvpr2017文章就在 image captioning 任務中使用了增強學習,通過在目標函式中加入 reward optimize function 來實現這一功能。

在微軟亞洲研究院最新的**中,我們在現有的cnn-lstm translation model(如圖中黑色流程線所示)基礎上使用 multiple instance learning 學習中一些內在的概念,並將這個語義資訊作為 lstm 的輸入對其進行約束以提公升效能(如圖中藍色流程線所示)。

在video captioning中可以使用不同的池化方式,如基於時間軸的均值池化和最大值池化,還可以使用注意力機制,比如hard-attention和soft-attention,或者使用編譯碼的方法對其進行處理。

為了更好的促進視覺和語言這一領域的研究,我們在acm ********** 2016和2017舉行了微軟研究院 」video to language」 挑戰賽,並且在今年的cvpr大會上舉辦了vision and language workshop。

在「video to language「挑戰賽中,sequence learning 是競賽中最主流的方法。

可以使用不同的方法來提取不同的特徵:

其他的還有 acoustic features, text features 和 video category 等特徵都有助於 video captioning 這一任務。

vision and language領域中有乙個新的問題--visual question answering:給定一張,並對中的內容進行提問,我們希望計算機能根據中的內容對問題給出合理的回答。雖然這個問題有很多人在研究,但是依然不夠成熟,還不能應用到真實場景中。

這個問題的處理方法與 image captioning相似,如iccv2015中提出的 baseline 使用的就是lstm + image的框架:

先使用 cnn 學習蘊含的特徵,同時使用 rnn 學習描述問題的句子中包含的特徵,然後將這兩個特徵進行融合,並對使用 softmax 等方法對其進行處理來得到最終結果。

與 image captioning 一樣,vqa 中的方法也可以總結為 」vqa with x」。

當 x 是 visual attention 模組時,這個 visual attention 可以從影象中學習,同時也可以從描述問題的句子中學習,這就是 visual-question co-attention。

我們今年被cvpr 2017接收的一篇**中還提出了 multi-level attention:即先學習乙個初始的 attention,然後通過image 中不同 region 之間的關係以及問題中不同詞素之間的關係來學習 multi-level attention。

該方法是先使用cnn學習影象的特徵表示,然後以迭代的方式使用lstm對問題進行學習,使得注意力逐步集中到問題關注的方面。他們在vqa 網路中加入stack attention這個模組之後,準確率可以從53.7%提公升到58%。

過程如下:

1. 首先將描述問題的句子分解為單詞;

2. 然後將單詞組合為短語;

3. 最後將短語重新組合為句子;

4. 並通過這三個不同尺度的元素來構建問題的特徵表示。

結果:

這種通過三個不同尺度的text attention和image attention學習特徵的方法,能逐步將問題的關注點聚集到影象相應區域,最終可以將準確率從58.7%提高到61.8%。

multi-level attention是在傳統的 image attention 框架上,使用 rnn 來學習中不同區域之間的關係,並將準確率提高到了65.4%,是所有公開方法中最好的結果。

寫在最後:

然而,相較於學術界的進展,在真實的應用場景中,我們仍面臨著技術不夠成熟、魯棒性不足等問題,離真正落地仍有很長的路要走。

今天,深度學習技術為視覺和語言之間搭建了一座橋梁,這將只是乙個開始,隨著更多維度資訊的加入(如語音、文字等),計算機將能夠更好地理解這個多維的世界,為人工智慧全方位服務人類提供可能。

原文發布時間為:

2017-09-13 梅濤

心靈之窗 視覺研究的進展 應用與意義

研究了影象識別半年了,一直在除錯 熟悉各種演算法,hog haar gabor等各種特徵提取,對於為什麼採用這種方式,也曾有過疑惑,但是沒去深究,閱讀了這本書,才算是影象識別的入門了,很多演算法是根據生理特性來設計的,這也解釋了為什麼演算法用於做識別會有很高的精度。如果有機會,值得收藏,於是我又讀了...

視覺研究領域歷史回顧與介紹

資訊 的原因,部分是因為我們有網際網路作為資訊的載體,另一部分的原因是感測器,我們的感測器甚至比人還多。我們每個人都拿著一部智慧型手機,大街上跑的車也有行車記錄儀,所以感測器確實引起了視覺資訊的大爆發。計算機視覺是乙個與很多領域密切關聯的學科,b站李飛飛231n 課程針對的是更專的領域,它的模型和應...

計算機視覺 演算法與應用 概述

視覺為什麼如此困難?部分原因是因為它是乙個逆問題,在資訊不足的情況下,我們試圖恢復一些未知量來給出完整的解答。因此,我們必須求助於基於物理的和基於概率的模型來消除潛在解的歧義。物理學 計算機圖形學 物體運動 光線反射 空氣散射 經由攝像機鏡頭 眼睛 投影到平的 彎的 影象面上 計算機視覺 做上述反過...