公開資料集

海量資料（又稱大資料）已經成為各大網際網路企業面臨的最大問題，如何處理海量資料，提供更好的解決方案，是目前相當熱門的乙個話題。類似mapreduce、 hadoop等架構的普遍推廣，大家都在構建自己的大資料處理，大資料分析平台。相應之下，目前對於海量資料處理人才的需求也在不斷增多，此類人才可謂炙手可熱！越來越多的開發者把目光轉移到海量資料的處理上。但是不是所有人都能真正接觸到，或者有機會去處理海量資料的，所以就需要一些公開的海量資料集來研究。在quora上有人就問到，如何獲取海量資料集。此問題得到了很多人的關注。具體可以看看回答，資料集的種類多種多樣，有化學分析，基因遺傳等等，從中你肯定能得到自己想要個資料集。

where can i get large datasets open to the public?

首先說說幾個收集資料集的**：

1、public data sets on amazon web services (aws)

amazon從2023年開始就為開發者提供幾十tb的開發資料。

2、yahoo! webscope

3、konect is a collection of network datasets

4、stanford large network dataset collection

再就是說說幾個跟網際網路有關的資料集：

1、dataset for "statistics and social network of youtube videos"

2、1998 world cup web site access logs

這個是2023年世界盃期間的資料集。從1998/04/26 到 1998/07/26 的92天中，發生了 1,352,804,107次請求。

3、page view statistics for wikimedia projects

4、aol search query logs - rp

5、livedoor gourmet

海量影象資料集：

1、imagenet

包含1400萬的影象。

2、tiny images dataset

包含8000萬的32x32影象。

3、 mirflickr1m

flickr中的100萬的影象集。

4、 cophir

flickr中的1億600萬的影象

5、sbu captioned photo dataset

flickr中的100萬的影象集。

6、large-scale image annotation using visual synset(iccv 2011)

包含2億影象

7、nus-wide

flickr中的27萬的影象集。

8、sun dataset

包含13萬的影象

9、msra-mm

10、trecvid

在實際工作中，我們可以使用業務資料進行機器學習開發，但是在學習過程中，沒有業務資料，此時可以使用公開的資料集進行開發，常用資料集如下:

• •

公開資料集

自然語言處理資料集和公開資料集

三維重建和VSLAM相關的公開資料集大全

西瓜資料集3 0 西瓜資料集

公開資料集

自然語言處理資料集和公開資料集

三維重建和VSLAM相關的公開資料集大全

西瓜資料集3 0 西瓜資料集

相關推薦