資料集簡介

2021-10-01 11:16:15 字數 2187 閱讀 5737

本文主要介紹常見的幾個資料集,包括

filmtrust是2023年6月從整個filmtrust**上抓取的乙個小型資料集。

1. rating.txt:35497個專案評分,格式:userid,movieid,movierating

2. trust.txt:2023年定向信任評級,格式:trustorid,trusteeid,trustrating

獲取資料集點這裡!

獲得相關**點這裡!

該資料集包含有關來自12,294動漫的73,516個使用者的使用者偏好資料的資訊。每個使用者都可以將動漫新增到他們的完整列表中並為其指定乙個評分,並且該資料集是這些評分的彙總。

獲取資料集點這裡!

*****.csv

*****_id:標識動漫的唯一id。

name -動漫的全名。

genre -動漫的標籤,用逗號隔開

type -電影,tv,ova等

episodes -該節目中有多少集。(如果是電影則為1)。

rating -該動畫的平均評分(滿分10分)。

members -此動漫的「組」中的社群成員數。

rating.csv

user_id -無法識別的隨機生成的使用者id。

*****_id-該使用者已評分的動漫。

rating -該使用者已指定的評分(滿分10分)(如果**了該評分但未分配評分,則為-1)。

該資料集是使用者行為的列表,其列為:使用者id,遊戲標題,行為名稱,值。包括的行為是「購買」和「玩耍」。該值表示行為的執行程度-在「購買」的情況下,該值始終為1;在「玩遊戲」的情況下,該值表示使用者玩遊戲的小時數。

我是資料集詳解部落格**

movie_titles.txt包含電影的資訊,格式是:movie id,year of release,標題

注:movieid的順序範圍為1到17770。

customerid範圍從1到2649429。 有480189位使用者。

評級為1到5的五星級(整數)。

日期的格式為yyyy-mm-dd。

例如:

1,2003,dinosaur planet

2,2004,isle of man tt 2004 review

training_set訓練集,

格式是:

movieid:

customerid1,評級,日期

customerid2,評級,日期...

例如:1:

1488844,3,2005-09-06

822109,5,2005-05-13

885013,4,2005-10-19

30878,4,2005-12-26

823519,3,2004-05-03

893988,3,2005-11-17

124105,4,2004-08-05

probe set(探測集)格式如下:

movieid1:

customerid11

customerid12

… movieid2:

customerid21

customerid22

qualifying_data(測試集)格式如下:

movieid1:

customerid11,date11

customerid12,date12

… movieid2:

customerid21,date21

customerid22,date22

參賽者需根據訓練集中的資訊來**客戶在測試集中為電影提供的所有評級。提交的**檔案的格式遵循電影id、客戶id和日期順序

Mnist資料集簡介

1,基本概念 mnist是乙個非常有名的手寫體數字識別資料集,在很多資料中,這個資料集都會被用作深度學習的入門樣例。而tensorflow的封裝讓使用mnist資料集變得更加方便。mnist資料集是nist資料集的乙個子集,mnist 資料集可在 獲取,它包含了四個部分 1 training set...

機器學習 sklearn資料集簡介

監督學習 特徵值 目標值 分類 目標值是離散資料 回歸 目標值是連續資料 無監督學習 只有特徵值 聚類資料 訓練集 80 70 75 測試集 20 30 25 資料拆分 sklearn.model selection.train test split sklearn資料集 sklearn.datas...

主流RGBD資料集簡介 2019 12 15

nyu的公升級版,增加了一些資料,室內場景,有分割真值的資料集,但是真值很少 資料集包括 1513個室內場景資料 每個場景中點雲數量都不一樣 共21個類別的物件 0 20,總共已知類別應該是20,類別0應該是未知類別,即未標註點雲 其中,1201個場景用於訓練,312個場景用於測試。該資料集有四個評...