整理 | suiling對於從事機器學習的小夥伴來說,機器學習必須以大量的資料為基礎,否則構建再好的模型也不能達到你想要的效果。同時,不同質量的資料集也會影響到模型訓練的效果。之前營長就為大家推薦過一款機器學習資料集集合專案,如今該項目的作者已經如他所言更新內容啦!不信你看~出品 | ai科技大本營(id:rgznai100)
該專案包含了計算機視覺、自然語言處理、醫療等資料集,此外作者還很貼心地放上了每個資料集的時間、描述以及相關的*****。
以下是該列表中的部分資料集
更詳盡的資料集列表,請見:
uci資料集是乙個常用的機器學習標準測試資料集,經常出現在各種機器學習**當中。
機器學習資料集
ucl機器學習知識庫 包括近300個不同大小和型別的資料集,可用於分類 回歸 聚類和推薦系統任務。資料集列表位於 amazon aws公開資料集 包含的通常是大型資料集,可通過amazon s3訪問。這些資料集包括人類基因組專案 common crawl網頁語料庫 維基百科資料和google boo...
機器學習資料整理,收藏了不後悔
學習machine learning也有很長一段時間了,前段時間在 中應用了gtb gradient tree boosting 演算法。在我的資料集上gtb的performance比random forest要稍微強一點,整個experiment做完之後,有許多東西都來不及及時整理,很多都遺忘了。...
機器學習資料集 Dataset 彙總
cifar 10包含10個類別,50,000個訓練影象,彩色影象大小 32x32,10,000個測試影象。類別 airplane,automobile,bird,cat,deer,dog,frog,horse,ship,truck 資料格式 python版本 matlab版本 二進位制版本 cifa...