深度學習資料集

2021-07-09 16:29:13 字數 1592 閱讀 6210

海量資料(又稱大資料)已經成為各大網際網路企業面臨的最大問題,如何處理海量資料,提供更好的解決方案,是目前相當熱門的乙個話題。類似mapreduce、 hadoop等架構的普遍推廣,大家都在構建自己的大資料處理,大資料分析平台。

相應之下,目前對於海量資料處理人才的需求也在不斷增多,此類人才可謂炙手可熱!越來越多的開發者把目光轉移到海量資料的處理上。但是不是所有人都能真正接觸到,或者有機會去處理海量資料的,所以就需要一些公開的海量資料集來研究。

在quora上有人就問到,如何獲取海量資料集。此問題得到了很多人的關注。具體可以看看回答,資料集的種類多種多樣,有化學分析,基因遺傳等等,從中你肯定能得到自己想要個資料集。

where can i get large datasets open to the public?

*先來個不能錯過的資料集**(深度學習者的福音):*

首先說說幾個收集資料集的**:

1、public data sets on amazon web services (aws)

amazon從2023年開始就為開發者提供幾十tb的開發資料。

2、yahoo! webscope

3、konect is a collection of network datasets

4、stanford large network dataset collection

再就是說說幾個跟網際網路有關的資料集:

1、dataset for 「statistics and social network of youtube videos」

2、1998 world cup web site access logs

這個是2023年世界盃期間的資料集。從1998/04/26 到 1998/07/26 的92天中,發生了 1,352,804,107次請求。

3、page view statistics for wikimedia projects

4、aol search query logs - rp

5、livedoor gourmet

海量影象資料集:

1、imagenet

包含1400萬的影象。

2、tiny images dataset

包含8000萬的32x32影象。

3、 mirflickr1m

flickr中的100萬的影象集。

4、 cophir

flickr中的1億600萬的影象

5、sbu captioned photo dataset

flickr中的100萬的影象集。

6、large-scale image annotation using visual synset(iccv 2011)

包含2億影象

7、nus-wide

flickr中的27萬的影象集。

8、sun dataset

包含13萬的影象

9、msra-mm

10、trecvid

截止目前好像還沒有國內的企業或者組織開放自己的資料集。希望也能有企業開發自己的資料集給研究人員使用,從而推動海量資料處理在國內的發展!

100多個有趣的資料集

深度學習資料集

牛津大學寵物資料集760mb pascal voc資料集 2012 是眾所周知的常用於物體檢測和分割的。超過11k的影象組成了訓練和驗證資料集,而10k影象專用於測試資料集。使用mean intersection over union miou 度量來評估分段挑戰。intersection over...

深度學習資料集彙總

幾個重要的資料集彙總 擴充套件 cifar 10包含10個類別,50,000個訓練影象,彩色影象大小 32x32,10,000個測試影象。類別 airplane,automobile,bird,cat,deer,dog,frog,horse,ship,truck 資料格式 python版本 matl...

深度學習資料集彙總

cifar 10包含10個類別,50,000個訓練影象,彩色影象大小 32x32,10,000個測試影象。類別 airplane,automobile,bird,cat,deer,dog,frog,horse,ship,truck 資料格式 python版本 matlab版本 二進位制版本 雅虎發布...