無中生有計算機視覺探奇

計算機視覺 (computer vision, cv) 是一門研究如何使機器「看」的科學。2023年來自mit的larry roberts發表的該領域第一篇博士**「machine perception of three-dimensional solids」，標誌著cv作為一門新興人工智慧方向研究的開始。在發展了50多年後的今天，我們就來聊聊最近讓計算機視覺擁有「無中生有」能力的幾個有趣嘗試：1）超解析度重建；2）影象著色；3）看圖說話；4）人像復原；5）影象自動生成。可以看出，這五個嘗試層層遞進，難度和趣味程度也逐步提公升。（注：本文在此只談視覺問題，不提太過具體的技術細節，若大家對某部分感興趣，以後再來單獨寫文章討論 :)

去年夏天，一款名為「waifu 2x」的島國應用在動畫和計算機圖形學中著實火了一把。waifu 2x借助深度「卷積神經網路」(convolutional neural network, cnn) 可以將影象的解析度提公升2倍，同時還能對影象降噪。簡單來說，就是讓計算機「無中生有」的填充一些原圖中並沒有的畫素，從而讓漫畫看起來更清晰真切。大家不妨看看下圖，真想童年時候看的就是如此高畫質的龍珠啊！

常說「**並茂」，文字是除影象外另一種描述世界的方式。近期，一項名為「image caption」的研究逐漸公升溫起來，其主要任務是通過計算機視覺和機器學習的方法實現對一張影象自動地生**類自然語言的描述，即「看圖說話」。值得一提的是，在今年的cv國際頂會cvpr上，image caption被列為了乙個單獨的session，其熱度可見一斑。一般來講在image caption中，cnn用來獲取影象特徵，接著將影象特徵作為語言模型lstm（rnn的一種）的輸入，整體作為乙個「end-to-end」的結構進行聯合訓練，最終輸出對影象的語言描述（見下圖）。

目前image caption領域的最好結果[3]來自澳大利亞university of adelaide的chunhua shen教授團隊。與之前image caption工作相比，他們的改進與剛才提到的顏色恢復簡直有異曲同工之妙，同樣是考慮利用影象中物體的類別作為較精準的「依據」來更好的生成自然語言描述，即下圖中的紅色框框圈起的部分。image caption的急速發展不僅加速了cv和nlp在ai大領域內的交融，同時也為增強現實應用奠定了更加堅實的技術基礎。另外，我們更樂於看到今後日趨成熟的image caption技術嵌入到穿戴式裝置上，那一天盲人便可以間接的「看到光明」。

就在六月初，荷蘭科學家在arxiv上發布了他們的最新研究成果[4]——通過深度網路對人臉輪廓圖進行「復原」。如下圖所示，在模型訓練階段，首先對真實的人臉影象利用傳統的線下邊緣化方法獲得對應人臉的輪廓圖，並以原圖和輪廓圖組成的「影象對」作為深度網路的輸入，進行類似超解析度重建的模型訓練。在**階段，輸入為人臉輪廓（左二sketch），經過卷積神經網路的層層抽象和後續的「還原」可以逐步把相片般的人臉影象復原出來（右一），與最左邊的人臉真實影象對比，足夠以假亂真。在模型流程圖下還另外展示了一些人像復原的結果，左側一列為真實人像，中間列為畫家手工描繪的人臉輪廓圖，並以此作為網路輸入進行人像復原，最終得到右側一列的復原結果——目測以後刑偵警察再也不用苦練美術了

無中生有計算機視覺探奇

解密「無中生有」的計算機視覺

（計算機視覺）計算機視覺基礎

計算機視覺

無中生有 計算機視覺探奇

解密 「無中生有」的計算機視覺

（計算機視覺）計算機視覺基礎

計算機視覺

相關推薦

無中生有計算機視覺探奇

解密「無中生有」的計算機視覺