16個推薦系統開放公共資料集整理分享

2022-08-17 08:36:21 字數 2481 閱讀 9971

(本文由深度學習與nlp編譯)

本文主要整理了一些與推薦系統相關的高質量的資料集。整理自stack overflow、一些文章、推薦站點和學術實驗。其中,大多數資料集都是免費、開放的,但有些不是,需要獲得許可或引用作者的工作才能使用。此外,其中也包含一些預處理資料,可用於學術實驗。鏈結和資料集描述。

bookcrossing(bx)資料集由cai-nicolas花了的4周(2023年8月/ 9月)從book-crossing社群中爬取得到的。

電子商務

· 3. retailrocket推薦系統資料集

該資料集由三個檔案組成:乙個行為資料集(events.csv),乙個屬性資料集(item_properties.сsv)和乙個類目樹資料集(category_tree.сsv)。該資料來自現實世界的電子商務**。

該資料集是乙個快照,收集了**社群對各種**藝術家的偏好。

該資料集收集了last.fm**上2千名使用者的社交網路、tagging和music artist listening資訊。

million song資料集是乙個免費的資料集,提供了一百萬條當代流行**曲目相關的的audio features和metadata。

電影· 8. movielens

該資料集包含從兩個不同**收集的歌曲的rating資料集。第乙個**是使用者在與yahoo上使用**服務是產生的rating資料。

ciao***是2023年12月從**上抓取的***類別資料集。

filmtrust是2023年6月從整個filmtrust**上抓取的乙個小型資料集。

· 12. netflix

這是netflix獎競賽中使用的官方資料集。

遊戲· 13. steam video games

jokes

· 14. jester

該笑話資料集包含來自73,496個使用者,關於100個笑話的410萬連續rating資料(-10.00到+10.00)

餐飲·15. chicago entree

該資料集包含使用者與entree chicago餐廳推薦系統互動的記錄資料。

動漫·16. 動漫推薦資料庫

該資料集包含來自12,294個動漫的73,516個使用者的使用者偏好資料。每個使用者都可以將動畫新增到已完成的列表中並為其評分,該資料集把這些評級整理起來。

其他資料集

· grouplens資料集

· librec資料集

· yahoo research資料集

· 斯坦福大型網路資料集彙編

推薦系統資料集

movielens dataset 其中movielens 100k和movielens 1m有使用者對電影的打分,電影的title genre imdb鏈結 使用者的gender age occupation zip code。movielens 10m中還有使用者對電影使用的tag資訊。hetr...

推薦系統常用資料集

ps 對原文有所刪減 在這篇部落格中,作者介紹了九個資料集,其中一些是推薦系統中常用到的標準資料集,也有一些是非傳統意義上的資料集 non traditional datasets 作者相信,這些非傳統資料集更接近真實場景的資料。movielens資料集由grouplens研究組在 universi...

推薦系統常用資料集

book 1.book crossing bookcrossing bx 資料集由cai nicolas花了的4周 2004年8月 9月 從book crossing社群中爬取得到的。電子商務 2.amazon 3.retailrocket推薦系統資料集 該資料集由三個檔案組成 乙個行為資料集 ev...