深度學習專題 計算機視覺一

2021-10-05 18:54:00 字數 2668 閱讀 6373

缺點有提取了全域性的特徵而丟了細節。

特徵提取-索引技術-相關反饋-重排序

簡單的特徵變換包括了:

中心化,變數減去它的均值,相當於平移之後,所有資料覺得中心是(0,0);

歸一化,指的是,所有資料減去均值再除以標準差;

去相關,消除或減弱多光譜影象波段之間的相關性:kl變換、his(色度、亮度、飽和度)變換;

白化:使影象的畫素值轉化為零均值和單位方差。

特徵提取-索引技術-相關反饋-重排序

kd-tree\lsh(locality sensitive hashing)

特徵提取-索引技術-**相關反饋-**重排序

•explicit feedback :反饋正例或者負例

•implicit feedback: 根據可觀察的行為推斷使用者意圖

語義鴻溝:影象的底層視覺特徵和高層語義概念之間的鴻溝。(包括底層相同,高層語義不同:長得像的人和狗;底層不同,高層語義相同:高人和矮人)

特徵提取–向量化–索引技術–後處理

中期提取的是區域性特徵

詞袋模型

視覺詞袋

區域性檢測器harris、dog…

區域性描述器:sift、pca-sift、gloh

sift在空間尺度中尋找極值點,並提取出其位置、尺度、旋轉不變數。

影象識別基本框架

傳統的就是人工特徵提取+分類器

影象分類、目標檢測、目標分割、影象回歸

常見資料集影象分類的模型:

•lenet-5 •alexnet •vggnet •inception net •resnet •densenet

常見資料集:

•pascal voc這個資料集用於多種競賽:影象標題生成,目標檢測,關鍵點 檢測和物體分割 主頁: •**:

•imagenet

ms coco

•kitti

前國際上大的自動駕駛場景下的計算機視覺演算法評測資料集。 •該資料集用於**評測立體影象(stereo),光流(opticalflow),視覺測距(visualodometry),3d物體檢測(objectdetection)和3d跟蹤 (tracking)**等計算機視覺技術在車載環境下的效能

整個資料集由389對立體影象和光流圖,39.2km視覺測距序列以 及超過200k3d標註物體的影象組成,以10hz的頻率取樣及同步。

•總體上看,原始資料集被分為road,city,residential,campus 和person五大類。•對於3d物體檢測,label細分為car,van,truck,pedestrian, pedestrian(sitting),cyclist,tram以及misc組成

一階段的目標檢測早期會生成大量的bbox,但是大多數是背景,只有極少部分是目標。然而,在類別極不平衡的bbox中進行難度極大的細分類,來輸出bbox和分類結果,很難!!!原有的交叉熵損失作為分類任務的損失函式,無法抗衡「類別極不平衡」。所以一階段的檢測雖然檢測速度快,但是喪失了檢測精度。

方法:將回歸任務使用的交叉熵損失改為焦點損失。loss就是增加了(1-pt)^y

交叉熵損失

正樣本和負樣本:對於分類問題,正樣本是想要正確分類出的類別(目標類別)對應的樣本,負樣本則是其他類別的樣本。

計算機視覺 深度學習基礎

與神經網路的區別 傳統一般三層以內,深度可達上千層 傳統通常是全連線,深度形式多樣 共享權值,跨層的反饋等 目標函式 均方誤差 交叉熵 交叉熵能在深度學習模型下快速提高精度 為了避免交叉熵出現0,使用softmax層來突出最大值並轉換成概率 激勵函式 sigmoid relu 當神經元一層層疊加之後...

計算機視覺與深度學習公司

深度學習是大資料下最熱門的趨勢之一。上乙個十年是網際網路的時代,下乙個十年將是人工智慧的時代。國內已經產生大量的人工智慧公司,分布在不同的領域。2016年是人工智慧的元年,2017年將迎來 人工智慧 的春天。未來幾年也是人工智慧在金融 醫療 教育等大資料行業以及感知互動領域全面滲透的時期,我們正迎來...

深度學習用於計算機視覺

密集連線層 精度97.8 卷積神經網路 99.3 兩者的區別在於 dense層從特徵空間學到的是全域性模式,而卷積層學到時是區域性模式 1 卷積神經網路學到的模式具有平移不變性 視覺世界根本上來說就具有平移不變性 即在影象右下角學到某個模式後可以在任何地方識別這個模式。對於密集連線網路來說如果出現在...