計算機視覺在做哪些基本任務?

2021-10-07 13:26:30 字數 956 閱讀 5276

計算機是無法直接理解一張的內容,但是我們可以制定不同的任務,根據任務需要,讓計算機學會處理任務,基本任務大體可以分為四個方面:

一是分類(classification),即是將影象結構化為某一類別的資訊,用事先確定好的類別(string)或例項id來描述。

二是定位(localization),即標出目標在影象的什麼位置,通常是以包圍盒的(bounding box)形式給出。

三是檢測(detection),分類任務關心整體,給出的是整張的內容描述,而檢測則關注特定的物體目標,要求同時獲得這一目標的類別資訊和位置資訊,檢測給出的是對前景和背景的理解。在目標定位中,通常只有乙個或固定數目的目標,而目標檢測更一般化,其影象**現的目標種類和數目都不定。

四是分割(segmentation),分割包括語義分割(semantic segmentation)和例項分割(instance segmentation),解決「每乙個畫素屬於哪個目標物或場景」的問題。語義分割不區分屬於相同類別的不同例項。例如,當下圖影象中有五個人時,語義分割會將五個人整體的所有畫素**為「人」這個類別。與此不同的是,例項分割需要區分出哪些畫素屬於第乙個人、哪些畫素屬於第二個人,哪些畫素屬於第三個人等。

基本框架是在影象特徵提取的基礎上,進行分類和回歸。

任務框架模式

分類特徵提取+分類

定位特徵提取+回歸

檢測特徵提取+分類和回歸

分割特徵提取+分類和回歸

特徵提取的方法有兩種:1、人工設計特徵提取器的方法;2、卷積神經網路

計算機視覺的演算法有哪些,具有哪些特點?

以大力出奇蹟為主。主要利用1billion的資料 512tpu 100小時以上的訓練方式得到5 以內的accuracy提公升。代表作有各大廠的 net。講求得其main idea即可。主要利用mnist,cifar等各種toy data 簡化假設 數學公式組合來得到聲稱可generalize至大規模...

計算機視覺 分類任務常用評價指標

吶,下面我們先來看看分類任務有哪些可以使用的指標。作為乙個summary,我在下面寫到的有準確率 accuracy 精確率 precision 召回率 recall p r曲線 precision recall curve f1 score,roc曲線,auc,混淆矩陣。在開始之前,我們首先來說一說...

計算機視覺基本原理 RANSAC

基本矩陣求解方法主要有 直接線性變換法 基於ransac的魯棒方法。先簡單介紹一下直接線性變換法 注 三個紅線標註的三個等式等價。在上述分析過程中,如果n 8時,最小二乘法求解是否是最優估計呢?接下來,我們重點 一下這個問題。穩健 robust 對資料雜訊的敏感性。對於上述取樣,如果出現外點 距離正...