深度學習視覺領域常用資料集彙總

2021-08-14 02:24:51 字數 3187 閱讀 8392

深度學習領域的「hello world!」,入門必備!mnist是乙個手寫數字資料庫,它有60000個訓練樣本集和10000個測試樣本集,每個樣本影象的寬高為28*28。此資料集是以二進位制儲存的,不能直接以影象格式檢視,不過很容易找到將其轉換成影象格式的工具。

最早的深度卷積網路lenet便是針對此資料集的,當前主流深度學習框架幾乎無一例外將mnist資料集的處理作為介紹及入門第一教程,其中tensorflow關於mnist的教程非常詳細。

mnist將初學者領進了深度學習領域,而imagenet資料集對深度學習的浪潮起了巨大的推動作用。深度學習領域大牛hinton在2023年發表的**《imagenet classification with deep convolutional neural networks》在計算機視覺領域帶來了一場「革命」,此**的工作正是基於imagenet資料集。

imagenet資料集有1400多萬幅,涵蓋2萬多個類別;其中有超過百萬的有明確的類別標註和影象中物體位置的標註,具體資訊如下:

1)total number of non-empty synsets: 21841

2)total number of images: 14,197,122

3)number of images with bounding box annotations: 1,034,908

4)number of synsets with sift features: 1000

5)number of images with sift features: 1.2 million

imagenet資料集是目前深度學習影象領域應用得非常多的乙個領域,關於影象分類、定位、檢測等研究工作大多基於此資料集展開。imagenet資料集文件詳細,有專門的團隊維護,使用非常方便,在計算機視覺領域研究**中應用非常廣,幾乎成為了目前深度學習影象領域演算法效能檢驗的「標準」資料集。

與imagenet資料集對應的有乙個享譽全球的「imagenet國際計算機視覺挑戰賽(ilsvrc)」,以往一般是google、msra等大公司奪得冠軍,今年(2016)ilsvrc2016中國團隊包攬全部專案的冠軍。

coco(common objects in context)是乙個新的影象識別、分割和影象語義資料集,它有如下特點:

1)object segmentation

2)recognition in context

3)multiple objects per image

4)more than 300,000 images

5)more than 2 million instances

6)80 object categories

7)5 captions per image

8)keypoints on 100,000 people

coco資料集由微軟贊助,其對於影象的標註資訊不僅有類別、位置資訊,還有對影象的語義文字描述,coco資料集的開源使得近兩三年來影象分割語義理解取得了巨大的進展,也幾乎成為了影象語義理解演算法效能評價的「標準」資料集。

google開源的開源了圖說生成模型show and tell就是在此資料集上測試的,想玩的可以下下來試試哈。

pascal voc挑戰賽是視覺物件的分類識別和檢測的乙個基準測試,提供了檢測演算法和學習效能的標準影象注釋資料集和標準的評估系統。pascal voc集包括20個目錄:人類;動物(鳥、貓、牛、狗、馬、羊);交通工具(飛機、自行車、船、公共汽車、小轎車、電單車、火車);室內(瓶子、椅子、餐桌、盆栽植物、沙發、電視)。pascal voc挑戰賽在2023年後便不再舉辦,但其資料集影象***,標註完備,非常適合用來測試演算法效能。

cifar-10包含10個類別,50,000個訓練影象,彩色影象大小:32x32,10,000個測試影象。cifar-100與cifar-10類似,包含100個類,每類有600張,其中500張用於訓練,100張用於測試;這100個類分組成20個超類。影象類別均有明確標註。cifar對於影象分類演算法測試來說是乙個非常不錯的中小規模資料集。

過去幾年機器學習的發展使得計算機視覺有了快速的進步,系統能夠自動描述,對共享的創造自然語言回應。其中大部分的進展都可歸因於 imagenet 、coco這樣的資料集的公開使用。谷歌作為一家偉大的公司,自然也要做出些表示,於是乎就有了open image。

open image是乙個包含~900萬張影象url的資料集,裡面的通過標籤注釋被分為6000多類。該資料集中的標籤要比imagenet(1000類)包含更真實生活的實體存在,它足夠讓我們從頭開始訓練深度神經網路。

谷歌出品,必屬精品!唯一不足的可能就是它只是提供url,使用起來可能不如直接提供方便。

此資料集,筆者也未使用過,不過google出的東西質量應該還是有保障的。

如果以上資料集還不能滿足你的需求的話,不妨從下面找找吧。

1.深度學習資料集收集**

收集大量的各深度學習相關的資料集,但並不是所有開源的資料集都能在上面找到相關資訊。

2、tiny images dataset

包含8000萬的32x32影象,cifar-10和cifar-100便是從中挑選的。

3、cophir

雅虎發布的超大flickr資料集,包含1億多張。

4、mirflickr1m

資料集中挑選出的100萬影象集。

5、sbu captioned photo dataset

的乙個子集,包含100萬的影象集。

6、nus-wide

中的27萬的影象集。

7、large-scale image annotation using visual synset(iccv 2011)

機器標註的乙個超大規模資料集,包含2億影象。

8、sun dataset

包含13萬的影象的資料集。

深度學習視覺領域常用資料集彙總

深度學習領域的 hello world 入門必備!mnist是乙個手寫數字資料庫,它有60000個訓練樣本集和10000個測試樣本集,每個樣本影象的寬高為28 28。此資料集是以二進位制儲存的,不能直接以影象格式檢視,不過很容易找到將其轉換成影象格式的工具。最早的深度卷積網路lenet便是針對此資料...

深度學習的視覺領域下常用的資料集彙總

深度學習視覺領域常用的開源資料集,進行介紹和彙總。深度學習領域的 hello world 入門必備!mnist是乙個手寫數字資料庫,它有60000個訓練樣本集和10000個測試樣本集,每個樣本影象的寬高為28 28。此資料集是以二進位制儲存的,不能直接以影象格式檢視,不過很容易找到將其轉換成影象格式...

深度學習視覺常用資料集

1.深度學習資料集收集 收集大量的各深度學習相關的資料集,但並不是所有開源的資料集都能在上面找到相關資訊。2 tiny images dataset 包含8000萬的32 32影象,cifar 10和cifar 100便是從中挑選的。3 cophir 雅虎發布的超大flickr資料集,包含1億多張。...