解密 「無中生有」的計算機視覺

2021-09-23 08:33:46 字數 3846 閱讀 2608

計算機視覺(computer vision,cv)是一門研究如何使機器「會看」的科學。2023年來自mit的larry roberts發表了該領域第一篇博士**《machine perception of three-dimensional solids》,標誌著cv作為一門新興人工智慧方向研究的開始。在發展了50多年後的今天,我們就來聊聊最近讓計算機視覺擁有「無中生有」能力的幾個有趣嘗試:

超解析度重建;

影象著色;

看圖說話;

人像復原;

影象自動生成。

可以看出,這五個嘗試層層遞進,難度和趣味程度也逐步提公升。由於篇幅有限,本文在此只談視覺問題,不提太過具體的技術細節,若大家對某部分感興趣,以後再來單獨寫文章討論。

去年夏天,一款名為「waifu 2x」的島國應用在動畫和計算機圖形學中著實火了一把。waifu 2x借助深度「卷積神經網路」(convolutional neural network,cnn)技術,可以將影象的解析度提公升2倍,同時還能對影象進行降噪。簡單來說,就是讓計算機「無中生有」地填充一些原圖中並沒有的畫素,從而讓漫畫看起來更清晰真切。大家不妨看看圖1、圖2,真想童年時候看的就是如此高畫質的龍珠啊!

圖1 《龍珠》超解析度重建效果。右側為原畫,左側為waifu 2x對同幀動畫超解析度重建結果

圖2 waifu 2x超解析度重建對比,上方為低解析度且有雜訊的動畫影象,左下為直接放大的結果,右下為waifu 2x去噪和超解析度結果

圖3 超解析度重建演算法流程。從左至右依次為:低解析度影象(輸入)、經過若干卷積和池化操作得到的低解析度特徵圖、低解析度特徵圖經過非線性對映得到的高解析度特徵圖、高解析度重建影象(輸出)

圖4 影象著色的深度學習網路結構和效果。輸入黑白影象後即分為兩支,上側一支用於影象著色,下側一支用於影象分類。在圖中紅色部分(fusion layer),兩支的深度特徵資訊進行融合,由於包含了分類網路特徵,因此可以起到「用分類結果為依據輔助影象著色」的效果

人們常說「**並茂」,文字是除影象之外另一種描述世界的方式。近期,一項名為「image caption」的研究逐漸公升溫起來,其主要目的是通過計算機視覺和機器學習的方法實現對一張影象自動地生**類自然語言的描述,即「看圖說話」。一般來講,在image caption中,cnn用來獲取影象的特徵,接著將影象特徵作為語言模型lstm(rnn的一種)的輸入,整體作為乙個end-to-end的結構進行聯合訓練,最終輸出對影象的語言描述(如圖5所示)。

圖5 image caption網路結構。影象作為輸入,首先經過微調後的多標記(multi-label)分類網路得到**的類別標籤,並以此連同影象的深度特徵作為下方語言模型lstm的輸入,最終進行聯合訓練。下圖左一可完成image caption任務,左2為單個單詞影象問答任務,右1為句子級別的影象問答任務

就在六月初,荷蘭科學家在arxiv上發布了他們的最新研究成果——通過深度網路對人臉輪廓圖進行「復原」。如圖6所示,在模型訓練階段,首先對真實的人臉影象利用傳統的線下邊緣化方法獲得對應人臉的輪廓圖,並以原圖和輪廓圖組成的「影象對」作為深度網路的輸入,進行類似超解析度重建的模型訓練。在**階段,輸入為人臉輪廓(左二sketch),經過卷積神經網路的層層抽象和後續的「還原」操作,可以逐步把相片般的人臉影象復原出來(右一),與最左邊的人臉真實影象對比,足夠以假亂真。在模型流程圖下還另外展示了一些人像復原的結果,左側一列為真實人像,中間列為畫家手工描繪的人臉輪廓圖,並以此作為網路輸入進行人像復原,最終得到右側一列的復原結果——目測以後刑偵警察再也不用苦練美術了。

圖6 人像復原演算法流程及效果

回顧剛才的四個工作,其實它們的共同點是仍然需要依靠一些「素材」方可「無中生有」,例如「人像復原」還是需要乙個輪廓畫才可以恢復人像。接下來的這個工作則可以做到由任意一條隨機向量生成一張逼近真實場景的影象。

「無監督學習」可謂是計算機視覺領域的聖杯。最近該方向的一項開創性工作是由ian goodfellow和yoshua bengio等提出的「生成對抗網路」(generative adversarial nets, gan)。該工作的靈感來自博弈論中的零和博弈。在二元零和博弈中,兩位博弈方的利益之和為零或乙個常數,即一方有所得,另一方必有所失。而gan中的兩位博弈方分別由乙個「判別式網路」和乙個「生成式網路」充當,如圖7所示。

圖7 生成式網路和判別式網路

其中,「判別式網路」的輸入為影象,其作用為判斷一張影象是真實的,還是由計算機生成的像;「生成式網路」的輸入為一條隨機向量,可以通過網路「生成」一張合成影象。這張合成影象亦可作為「判別式網路」的輸入,只是此時,在理想情況下應能判斷出它是由計算機生成的。

接下來,gan中的零和博弈就發生在「判別式網路」和「生成式網路」上:「生成式網路」想方設法的讓自己生成的影象逼近真實影象,從而可以「騙過」「判別式網路」;而「判別式網路」也時刻提高警惕,防止「生成式網路」蒙混過關……你來我往,如此迭代下去,頗有點「左右互搏」的意味。gan整個過程的最終目標是習得乙個可以逼近真實資料分布的「生成式網路」,從而掌握整體真實資料的分布情況,因此取名「生成對抗網路」。需要強調的是,gan不再像傳統的監督式深度學習那樣需要海量帶有類別標記的影象,它不需任何影象標記即可訓練,也就是進行無監督條件下的深度學習。2023年初,在gan的基礎上,indico research和facebook ai實驗室將gan用深度卷積神經網路進行實現(稱作dcgan,deep convolutional gan),工作發表在國際表示學習重要會議iclr 2016上,並在無監督深度學習模型中取得了當時最好的效果。圖8展示了一些由dcgan生成的臥室影象。

圖8 dcgan生成的臥室影象

更為有趣的是,dcgan還可以像word2vec一樣支援影象「語義」層面的加減(如圖9所示)。

圖9 dcgan「語義加減」示意

另外,前些天「生成式計算機視覺」研究領域大牛ucla的song-chun zhu教授團隊發布了他們基於生成式卷積網路的最新工作stgconvnet:它不僅可以自動合成動態紋理,同時還可以合成聲音,可以說將無監督計算機視覺又向前推進了一大步。

如今藉著「深度學習」的東風,計算機視覺中絕大多數任務的效能表現都被「刷」上了新高,甚至連「人像復原」,「影象生成」類似「無中生有」的奇談都可以較高質量地實現,著實讓人激動不已。不過儘管如此,事實上距離所謂的顛覆人類的ai「奇點」還相當遙遠,並且可以預見,現階段甚至相當長的一段時間內,計算機視覺或人工智慧還不可能做到真正意義上的「無中生有」——即擁有「自我意識」。

但是,也非常慶幸我們可以目睹並且經歷這次計算機視覺乃至是整個人工智慧的革命浪潮,相信今後還會有很多「無中生有」的奇蹟發生。站在浪潮之巔,我興奮不已、徹夜難眠。

無中生有 計算機視覺探奇

計算機視覺 computer vision,cv 是一門研究如何使機器 看 的科學。1963年來自mit的larry roberts發表的該領域第一篇博士 machine perception of three dimensional solids 標誌著cv作為一門新興人工智慧方向研究的開始。在發...

(計算機視覺)計算機視覺基礎

opencv cximage cimg freeimage opencv中vc庫的版本與visual studio版本的對應關係 vc8 2005 vc9 2008 vc10 2010 vc11 2012 vc12 2013 vc14 2015 vc15 2017 visual studio中的輔助...

計算機視覺

主講老師 曹洋 課程 視覺 基礎 底 層處理 影象處理 特徵提 取 中 層處理 影象分割 相機標 定 深度 估計 運 動估計 高層處 理 3d 重建 目 標識別 視 覺基 礎 底層 處理 圖 像處理 特徵提取 中層 處理 圖 像分割 相機標定 深度估 計 運動 估計 高層處理 3d重 建 目標 識別...