從輸入圖象到資訊獲取之間存在著巨大的認知空白,其間需要經過一系列十分複雜的資訊處理和理解過程。想象一下,在火車站,我們可以從茫茫人群中精確地找出要迎接的夥伴,這遠非現在的機器學習、搜尋引擎所能解決的。這再次證明人類視覺系統的強大。對人類視覺過程本質的認識,乃是揭開機器視覺進步的關鍵。對計算機而言,所有的輸入均是矩陣,機器視覺的目的,就是要從這些矩陣中獲取有用的資訊。
計算機對影象內容的識別,按照難度、應用場景、所使用方法的不同,可以劃分為三類:
1、近重複檢索,主要是查詢同源的不同版本(光照、旋轉、縮放、模糊、logo、水印等、裁剪)
2、場景檢索,又稱物件識別檢索,主要是查詢在不同場景中出現同一物體,主要需要克服遮擋、仿射、視角改變等效應
3、同類物體檢索,即平時所說的cbir系統,往往需要一些訓練、學習過程。
下圖很好地說明了這三類檢索的區別:
[img]
上述1的近重複檢索,採用edge histogram、scalable color等mpeg-7規範產生的影象簽名來構建系統,輔以locality sensitive hash等相似檢索的資料結構,能夠達到不錯的效果,可以用於版權保護等應用。
上述3的同類物體檢索,自從ibm最早提出基於cbir的qbir時,就有廣泛的研究。但過於複雜的模型構建以及難以提高的準確率和召回率,一直是難以逾越的鴻溝。要讓計算機理解一副
,其難度遠遠大於識別一副。
[img]
[img]
這類特徵點共同的特點在於,對旋轉、縮放、模糊、亮度、仿射變形、視角變換等都具有很強的抵抗性,如下圖所示:
[img]
[img]
當前日趨成熟的文字搜尋引擎,有值得我們借鑑的地方嗎?
[img]
類似的方式,我們是否也可以對搜尋採用類似的「視覺詞庫」的方式呢?
[img]
[img]
漫談計算機視覺
從輸入圖象到資訊獲取之間存在著巨大的認知空白,其間需要經過一系列十分複雜的資訊處理和理解過程。想象一下,在火車站,我們可以從茫茫人群中精確地找出要迎接的夥伴,這遠非現在的機器學習 搜尋引擎所能解決的。這再次證明人類視覺系統的強大。對人類視覺過程本質的認識,乃是揭開機器視覺進步的關鍵。對計算機而言,所...
(計算機視覺)計算機視覺基礎
opencv cximage cimg freeimage opencv中vc庫的版本與visual studio版本的對應關係 vc8 2005 vc9 2008 vc10 2010 vc11 2012 vc12 2013 vc14 2015 vc15 2017 visual studio中的輔助...
計算機視覺
主講老師 曹洋 課程 視覺 基礎 底 層處理 影象處理 特徵提 取 中 層處理 影象分割 相機標 定 深度 估計 運 動估計 高層處 理 3d 重建 目 標識別 視 覺基 礎 底層 處理 圖 像處理 特徵提取 中層 處理 圖 像分割 相機標定 深度估 計 運動 估計 高層處理 3d重 建 目標 識別...