海量資料(又稱大資料)已經成為各大網際網路企業面臨的最大問題,如何處理海量資料,提供更好的解決方案,是目前相當熱門的乙個話題。類似mapreduce、 hadoop等架構的普遍推廣,大家都在構建自己的大資料處理,大資料分析平台。
相應之下,目前對於海量資料處理人才的需求也在不斷增多,此類人才可謂炙手可熱!越來越多的開發者把目光轉移到海量資料的處理上。但是不是所有人都能真正接觸到,或者有機會去處理海量資料的,所以就需要一些公開的海量資料集來研究。
在quora上有人就問到,如何獲取海量資料集。此問題得到了很多人的關注。具體可以看看回答,資料集的種類多種多樣,有化學分析,基因遺傳等等,從中你肯定能得到自己想要個資料集。
where can i get large datasets open to the public?
*先來個不能錯過的資料集**(深度學習者的福音):*
首先說說幾個收集資料集的**:
1、public data sets on amazon web services (aws)
amazon從2023年開始就為開發者提供幾十tb的開發資料。
2、yahoo! webscope
3、konect is a collection of network datasets
4、stanford large network dataset collection
再就是說說幾個跟網際網路有關的資料集:
1、dataset for 「statistics and social network of youtube videos」
2、1998 world cup web site access logs
這個是2023年世界盃期間的資料集。從1998/04/26 到 1998/07/26 的92天中,發生了 1,352,804,107次請求。
3、page view statistics for wikimedia projects
4、aol search query logs - rp
5、livedoor gourmet
海量影象資料集:
1、imagenet
包含1400萬的影象。
2、tiny images dataset
包含8000萬的32x32影象。
3、 mirflickr1m
flickr中的100萬的影象集。
4、 cophir
flickr中的1億600萬的影象
5、sbu captioned photo dataset
flickr中的100萬的影象集。
6、large-scale image annotation using visual synset(iccv 2011)
包含2億影象
7、nus-wide
flickr中的27萬的影象集。
8、sun dataset
包含13萬的影象
9、msra-mm
10、trecvid
截止目前好像還沒有國內的企業或者組織開放自己的資料集。希望也能有企業開發自己的資料集給研究人員使用,從而推動海量資料處理在國內的發展!
100多個有趣的資料集
深度學習資料集
牛津大學寵物資料集760mb pascal voc資料集 2012 是眾所周知的常用於物體檢測和分割的。超過11k的影象組成了訓練和驗證資料集,而10k影象專用於測試資料集。使用mean intersection over union miou 度量來評估分段挑戰。intersection over...
深度學習資料集彙總
幾個重要的資料集彙總 擴充套件 cifar 10包含10個類別,50,000個訓練影象,彩色影象大小 32x32,10,000個測試影象。類別 airplane,automobile,bird,cat,deer,dog,frog,horse,ship,truck 資料格式 python版本 matl...
深度學習資料集彙總
cifar 10包含10個類別,50,000個訓練影象,彩色影象大小 32x32,10,000個測試影象。類別 airplane,automobile,bird,cat,deer,dog,frog,horse,ship,truck 資料格式 python版本 matlab版本 二進位制版本 雅虎發布...