海量資料(又稱大資料)已經成為各大網際網路企業面臨的最大問題,如何處理海量資料,提供更好的解決方案,是目前相當熱門的乙個話題。類似mapreduce、 hadoop等架構的普遍推廣,大家都在構建自己的大資料處理,大資料分析平台。 相應之下,目前對於海量資料處理人才的需求也在不斷增多,此類人才可謂炙手可熱!越來越多的開發者把目光轉移到海量資料的處理上。但是不是所有人都能真正接觸到,或者有機會去處理海量資料的,所以就需要一些公開的海量資料集來研究。 在quora上有人就問到,如何獲取海量資料集。此問題得到了很多人的關注。具體可以看看回答,資料集的種類多種多樣,有化學分析,基因遺傳等等,從中你肯定能得到自己想要個資料集。
where can i get large datasets open to the public?
首先說說幾個收集資料集的**:
1、public data sets on amazon web services (aws)
amazon從2023年開始就為開發者提供幾十tb的開發資料。
2、yahoo! webscope
3、konect is a collection of network datasets
4、stanford large network dataset collection
再就是說說幾個跟網際網路有關的資料集:
1、dataset for "statistics and social network of youtube videos"
2、1998 world cup web site access logs
這個是2023年世界盃期間的資料集。從1998/04/26 到 1998/07/26 的92天中,發生了 1,352,804,107次請求。
3、page view statistics for wikimedia projects
4、aol search query logs - rp
5、livedoor gourmet
海量影象資料集:
1、imagenet
包含1400萬的影象。
2、tiny images dataset
包含8000萬的32x32影象。
3、 mirflickr1m
flickr中的100萬的影象集。
4、 cophir
flickr中的1億600萬的影象
5、sbu captioned photo dataset
flickr中的100萬的影象集。
6、large-scale image annotation using visual synset(iccv 2011)
包含2億影象
7、nus-wide
flickr中的27萬的影象集。
8、sun dataset
包含13萬的影象
9、msra-mm
10、trecvid
在實際工作中,我們可以使用業務資料進行機器學習開發,但是在學習過程中, 沒有業務資料,此時可以使用公開的資料集進行開發,常用資料集如下:
• •
• •
• •
自然語言處理資料集和公開資料集
資料庫 自然語言處理的核心步驟 參考1 自然語言處理的核心步驟 參考2 自然語言處理的核心步驟 參考3 資料集 資料集合 tensorflow實現的深度nlp模型集合 github位址,100 jupter notebook實現 公開語料庫 ldc語料庫 全世界自然語言處理科學家共用的資料庫 多種演...
三維重建和VSLAM相關的公開資料集大全
測試乙個slam的演算法效能,需要測試slam演算法定位精度 時間開銷,記憶體開銷等等。而時間開銷和記憶體開銷一般比較好操作,但是定位精度一般很難評估,因為你需要真實軌跡,但是這個很難獲取,需要一些比較昂貴的裝置,因此,一些實驗室專門做了公開資料集和評估工具,可以通過這些公開資料集和評估工具對比一些...
西瓜資料集3 0 西瓜資料集
編號,色澤,根蒂,敲聲,紋理,臍部,觸感,好瓜 1,青綠,蜷縮,濁響,清晰,凹陷,硬滑,是 2,烏黑,蜷縮,沉悶,清晰,凹陷,硬滑,是 3,烏黑,蜷縮,濁響,清晰,凹陷,硬滑,是 4,青綠,蜷縮,沉悶,清晰,凹陷,硬滑,是 5,淺白,蜷縮,濁響,清晰,凹陷,硬滑,是 6,青綠,稍蜷,濁響,清晰,稍凹...