2018 年 9 月 18 日,2018 世界人工智慧大會·視覺智慧型 瞳鑑未來七牛雲專場分論壇在上海國際會議中心 5 樓歐洲廳舉行。華為諾亞方舟實驗室計算視覺首席科學家、美國德克薩斯大學聖安東尼奧分校計算機系教授田奇,在會上為大家帶來了題為《行人再識別的挑戰和最新進展》的分享。
以下內容根據現場演講內容速記的實錄整理。
各位嘉賓,各位老師,各位同學,非常榮幸在這裡和大家分享我們的工作。本次我報告的主題是《行人再識別的挑戰和最新進展》。在今天的報告中,我將首先介紹一下行人再識別的背景和面臨的挑戰,接著介紹學術界近年取得的最新進展以及我們相關的工作,最後與大家分享行人再識別領域未來可能出現的新的研究方向。
行人再識別具有廣闊的應用前景,包括行人檢索、行人跟蹤、街頭事件檢測,行人動作行為分析等等。當然這個動作行為分析也包括使用者在商場中的購物行為分析,比如估計顧客的年齡、性別、對什麼樣的商品感興趣、停留的時間等等。這些資訊有助於商場去策劃相應的銷售策略。由於行人再識別任務的重要性,近些年越來越多的研究人員和機構都投入進來,從計算機視覺頂會的**發表情況就可以看出來這一趨勢。例如在 2013 年,相關的文章在視覺頂會上發表的並不多,但是近年快速上公升,在今年的計算機視覺頂級會議 cvpr 上,就有 32 篇文章發表,在 eccv 上有 19 篇文章發表。
我們對行人再識別發展歷程做了乙個總結。簡單來說,行人再識別的發展分為兩個大階段:乙個是 2014 年以前,主要依靠一些傳統方法,例如設計手工特徵等。2014 年以後的工作基本上都是基於深度學習的。在深度學習的框架下又有一些細分工作,比如說這兩年因為深度模型需要大量的訓練資料,在訓練資料不足的情況下,基於生成對抗網路的資料生成方法成為了比較熱門的研究方向。
行人再識別是乙個較難的課題,解決這一課題面臨著諸多挑戰。這些挑戰可以歸納為三種:第乙個挑戰是對大量訓練資料的需求;第二個挑戰是行人視覺表觀差異性大;第三個挑戰是非理想的場景。
對大量訓練資料需求的挑戰主要體現在以下這些方面:
一是有限的訓練資料。從當前行人再識別訓練資料的收集情況來看,收集到的資料相對於真實資料的時空分布是非常有限的、區域性的。同時,與其他視覺任務相比,行人再識別的資料規模也是非常小的。比如以大規模影象識別資料集 imagenet 來說,它的訓練資料有 125 萬張,在行人檢測資料集 caltech 上標註的行人框有 35 萬個,ccocooco 的目標檢測資料訓練集是 12.3 萬多張。而我們行人再識別當前常用的資料集僅有 3 萬多張行人。
二是訓練、資料獲取比較困難。我們很難去收集到跨時間、跨氣候和多場景的行人資料。另外,隱私問題也對資料獲取造成了阻礙。
第二個行人視覺表觀差異變化大的挑戰,主要是行人呈現不同的姿態,含有複雜的背景,不同的光照條件以及不同的拍攝視角,這些都會給行人再識別帶來很大的困擾。而且乙個行人穿不同的衣服,戴不同的帽子或者眼鏡,留不同的髮型也都會帶來巨大問題。
第三個主要挑戰是非理想的場景,主要是行人不對齊、部分遮擋、影象質量低等問題。
行人再識別近年的進展也主要是圍繞著如何解決好以上這三大挑戰來展開的。
除了從構建更大更真實資料集的角度來應對大量訓練資料需求的挑戰,我們還可以通過資料生成的方法,來增加訓練資料量。資料生成有傳統方法和深度學習方法。比如說對影象進行一些操作像翻反轉、剪裁、構建金字塔輸入等,這些都是被廣泛採用的傳統方法。近年來,深度學習的方法主要是 gan-based 方法。生成對抗網路(gan)在行人再識別上的第乙個工作發表在 iccv2017 上,作者他用 dcgan 生成沒有標註的行人資料,來進行資料增強。這個工作的但問題是,dcgan 生成的行人質量是比較低的。針對訓練集中行人姿態變化不夠的情況,cvpr2018 上,上海交大的倪冰冰老師團隊用條件 gan 來生成具有不同姿態的行人影象,以豐富訓練集中行人的姿態變化。只不過,同樣的問題是生成的影象質量比較低。另外, cvpr2018 中有團隊做相機風格的學習。比如說從第乙個攝像頭拍到的真實影象,轉移到第六個攝像頭相機下,或者是第六個相機的影象轉移成具有第乙個相機風格的影象。通過這種方式,我們的訓練集就會更加均衡地囊括場景中各個相機的風格,在測試階段具備更好的效能。
我們在今年 cvpr2018 提出了 ptgan(person transfer gan)。ptgan 主要做跨場景的遷移,假設我們在北京標註的訓練資料想在上海的某個場景下用,我們就可以通過 ptgan 將已經標註好的資料遷移到上海的場景中,遷移後的就像在上海拍攝一樣。然後我們在遷移後的資料集上訓練行人再識別模型,這樣會在上海的場景中得到更好的效能。ptgan 的實現主要基於兩個損失函式:風格遷移和行人保持。風格遷移的目的是我們遷移後的風格盡可能和目標場景一致,而行人保持的目的是遷移後的中行人沒有發生改變。我們在不同資料集上都做了相關實驗,效能都有相當大的提高。
應對行人表觀資訊變化大的挑戰主要解決方案,集中在如何提出更好的行人特徵表達上,傳統方法中我們利用顏色特徵、紋理特徵、距離傳統度量學習等。對於深度學習方法,除了利用現有的深度學習網路框架以外,主要是設計不同的損失函式來進行優化,包括 softmax loss、二元組、三元組、四元組的損失函式等。
最後應對非理想場景的挑戰,主要解決方案是對人體部件進行檢測和匹配。我們在 iccv2017 提出了 pose-driven convolution (pdc) 方法來提取人體的細粒度部件,並進行矯正。但是由於需要提取非常精細的人體的部件, pdc 對遮擋以及人體關鍵點檢測誤差比較敏感。基於此,我們在 mm17 中提出了 global-local alignment deor(glad) 的方法,僅需提取三個粗粒度部件就能得到非常好的效能。
當然最近大家也還都提出非常好的基於人體部件的方法,進一步提公升行人再識別的效能,如 alignedreid 等。
談及行人再識別未來的方向,肯定離不開兩個方面:資料和方法。在資料層面,一方面我們要構造更真實更大的資料集,另一方面也可以通過 3d graphics 相關方法做資料生成。在方法層面,我們之前僅僅考慮視覺資訊。其實現實世界中我們還可以獲得大量其它資訊加以利用,如 wi-fi 接入網路、步態 gait、gpsgps 等等。另外在現實應用中,行人檢測和再識別其實是一體的, 應該在乙個框架下統一優化。目前在這方面的工作還有所欠缺,未來我們會重點研究這一方向。
最後我介紹一下當前華為諾亞方舟實驗室的情況。諾亞方舟實驗室的研究工作主要是集中在五個方向,包括計算機視覺、自然語言處理、決策與推理、搜尋與推薦,ai 基礎理論等。在計算機視覺方面主要是做平安城市、終端視覺等方向的工作。目前實驗室與十個國家超過 25 個大學有合作。諾亞方舟實驗室在國內主要是深圳、北京、上海、西安,海外主要在多倫多、矽谷、倫敦、巴黎和蒙特婁。
2019 09 05最新進展
今天完成的任務如下 1.學習在android studio中連線sqlite資料庫,寫了乙個及其簡單的登入註冊介面。2.將新寫的頁面上傳到gitlab中。3.繼續做臨界安全距離模型實驗,實驗資料如下 4.如下 includeusing namespace std intmain double v2 ...
2019 09 02最新進展
今天完成的工作如下 1.把我演算的安全距離模型草稿整理了。2.這個公式不用手算,寫乙個test.cpp可以輸入變數,算出結果。很簡單低階的程式。上傳到gitlab了。3.重新開啟我暑假用matlab測試的程式,把我最新的資料和理論值寫程序式。結果出bug了。正在修改bug。4.和孫磊同學交接這幾天的...
計算成像最新進展及應用
計算成像資料筆記 摘要 所謂 計算 就是將成像系統與後置的特徵提取計算步驟看成乙個整體,設計一種新型的成像系統一一 計算成像 使得成像系統的目的不再是滿足人們的視覺要求而是提供滿足智慧型應用所必須的魯棒和智慧型功能,實現 從3d到資訊 的跨越。本文主要對計算成像的最新進展和應用進行論述。在許多情況下...