計算機視覺資料集介紹

2021-08-19 21:05:10 字數 3327 閱讀 4896

1 mnist

**美國國家標準與技術研究所, national institute of standards and technology (nist). 

官網位址

資料功能

手寫數字分類

簡要說明

訓練集 (training set) 由來自 250 個不同人手寫的數字構成, 其中 50% 是高中學生, 50% 來自人口普查局 (the census bureau) 的工作人員. 測試集(test set) 也是同樣比例的手寫數字資料.

檔案說明

training set images: train-images-idx3-ubyte.gz (9.9 mb, 解壓後 47 mb, 包含 60,000 個樣本)

training set labels: train-labels-idx1-ubyte.gz (29 kb, 解壓後 60 kb, 包含 60,000 個標籤)

test set images: t10k-images-idx3-ubyte.gz (1.6 mb, 解壓後 7.8 mb, 包含 10,000 個樣本)

test set labels: t10k-labels-idx1-ubyte.gz (5kb, 解壓後 10 kb, 包含 10,000 個標籤)

儲存形式

位元組流方式

training set label file (train-labels-idx1-ubyte):

[offset] [type]          [value]          [description] 

0000     32 bit integer  0x00000801(2049) magic number (msb first) 

0004     32 bit integer  60000            number of items 

0008     unsigned byte   ??               label 

0009     unsigned byte   ??               label 

........ 

***x     unsigned byte   ??               label

the labels values are 0 to 9.

讀取方式

with open(labels_path, 'rb') as lbpath:

magic, n = struct.unpack('>ii',

lbpath.read(8))

labels = np.fromfile(lbpath,

dtype=np.uint8)

2 cifar-10/100

官網位址

資料功能

物體分類

cifar-10簡要說明

該資料集共有60000張彩色影象,這些影象是32*32,分為10個類,每類6000張圖。這裡面有50000張用於訓練,構成了5個訓練批,每一批10000張圖;另外10000用於測試,單獨構成一批。測試批的資料裡,取自10類中的每一類,每一類隨機取1000張。抽剩下的就隨機排列組成了訓練批。注意乙個訓練批中的各類影象並不一定數量相同,總的來看訓練批,每一類都有5000張圖。

cifar-10儲存形式

batch檔案:

data:乙個10000*3072的numpy陣列,資料型別是無符號整形uint8。這個陣列的每一行儲存了32*32大小的彩色影象(32*32*3通道=3072)。前1024個數是red通道,然後分別是green,blue。另外,影象是以行的順序儲存的,也就是說前32個數就是這幅圖的畫素矩陣的第一行。 

labels:乙個範圍在0-9的含有10000個數的列表(一維的陣列)。第i個數就是第i個影象的類標。

batches.meta檔案

包含乙個python字典物件,內容有:乙個包含10個元素的列表,每乙個描述了labels array中每個數字對應類標的名字。比如:label_names[0] == "airplane", label_names[1] == "automobile"

cifar-100簡要說明

資料集包含100小類,每小類包含600個影象,其中有500個訓練影象和100個測試影象。100類被分組為20個大類。每個影象帶有1個小類的「fine」標籤和1個大類「coarse」標籤。

3 svhn

資料**

是谷歌的現實世界的街景裁剪出數字部分。

官網位址

資料功能

數字分類

簡要說明

73257 訓練, 26032 測試, 531131 剩餘部分不是很難,當作額外的訓練資料.

10 類, '1' 對應 label 1, '9' 對應 label 9  '0' 對應 10.

檔案內容

train.tar.gz, test.tar.gz, extra.tar.gz 

儲存形式

digitstruct.mat是乙個matlab檔案,包含乙個和原始相同數量的結構體 digitstruct ,結構體包括:對應的名字,中數字的位置,高度,寬度。

讀取方式:

digitmat = load('digitstruct.mat')

digitmat.digitstruct----->1*13068  struct  array  with fields: name bbox

digitmat.digitstruct(1).name------->值為'1.png'

height: 30  left: 43  top: 7  width: 19  label: 5

4 coco

資料**

微軟官網位址

資料功能

物體識別,物體分割,人體骨骼關鍵點檢測,內容分割和標題生成。

簡要說明

coco資料集有91類。

2023年object detection版本:118k training, 5k validation, and 41k testing images

檔案內容

標註標註例項

屬性說明位址/#format-data

2023年版本的資料為例,一共有20g左右的和500m左右的標籤檔案。標籤檔案標記了每個segmentation+bounding box的精確座標,其精度均為小數點後兩位。乙個目標的標籤示意如下: 

5 imagenet

資料**

李飛飛科研團隊發起

官網位址

資料功能

物體分類1000分類,單目標定位1000類,目標檢測200類

檔案內容

訓練集 訓練集標籤 驗證集 驗證集標籤 測試集 測試集標籤

標註例項

name:wordnet格式標註名字

bndbox:為物體標籤框

計算機視覺資料集收集

資料集名稱 資料集簡介 包含用途 用法 字段含義等 類別 公共或自研 領域 非必填 mnist手寫數字 識別數字 0 9,包含 60000 的訓練集和 10000 的測試集 公共計算機視覺 ms coco 微軟發布的 coco 資料庫是乙個大型影象資料集 專為物件檢測 分割 人體關鍵點檢測 語義分割...

(計算機視覺)計算機視覺基礎

opencv cximage cimg freeimage opencv中vc庫的版本與visual studio版本的對應關係 vc8 2005 vc9 2008 vc10 2010 vc11 2012 vc12 2013 vc14 2015 vc15 2017 visual studio中的輔助...

計算機視覺

主講老師 曹洋 課程 視覺 基礎 底 層處理 影象處理 特徵提 取 中 層處理 影象分割 相機標 定 深度 估計 運 動估計 高層處 理 3d 重建 目 標識別 視 覺基 礎 底層 處理 圖 像處理 特徵提取 中層 處理 圖 像分割 相機標定 深度估 計 運動 估計 高層處理 3d重 建 目標 識別...