資料探勘競賽題目 電影推薦

2021-07-13 11:51:52 字數 1647 閱讀 5878

通過對使用者評分行為的分析,挖掘使用者的興趣及其變化規律,然後**使用者對其他電影的評分。

本次比賽,我們提供了1千萬左右的電影評分資料,每條評分記錄都有時間戳(隱匿了具體時間,只保證順序不變)。評分分為5級,1分最低,5分最高。

我們抽取了超過800萬條評分記錄,作為訓練集,資料檔案名為r1.train,字段格式為:

userid::movieid::rating::timestamp

使用者i : : 電影a :: 評分 :: 相對時間

使用者j : : 電影b : :評分: : 相對時間

說明

userid::movieid::rating::timestamp ,四個字段分別代表:使用者編號,電影編號,評分,相對時間;

每一行為乙個使用者對乙個商品的評分,行之間用「回車符」分隔;

每一行各欄位之間用「::」分隔。

我們還抽取了超過200萬條評分記錄,作為測試集。我們隱藏了使用者對於電影的評分,僅保留使用者和商品的評分關係,資料檔案名為r1.test,字段格式為:

userid::movieid::rating::timestamp

使用者i : : 電影a :: ** :: 相對時間

使用者j : : 電影b : : **: : 相對時間

說明資訊同訓練集,rating欄位用「**」代替。

我們還提供了電影的詳細資訊,資料檔案為movies.dat,格式如下:

movieid::title::genres

movieid是電影編號,title是電影名稱,genres是電影類別資訊。

類別資訊含義如下:

• action

• adventure

• animation

• children』s

• comedy

• crime

• documentary

• drama

• fantasy

• film-noir

• horror

• musical

• mystery

• romance

• sci-fi

• thriller

• war

• western

參賽者需要寫出推薦演算法,**測試集中使用者對於電影的評分。

評分演算法: regression-new_rmse

演算法解釋: 採用均方根誤差rmse來評測整個演算法的推薦準確度

rm

se=1

∣∣ep

∣∣∑(

μ,α)

∈ep(

rμα−

r′μα

)2−−

−−−−

−−−−

−−−−

−−−−

−−−

⎷其

中rμα

是使用者μ

對α的實

際評分,

r′μα

是參賽者

對於μ對

α評分的

**值

資料探勘競賽題目 文字分類

使用搜狗語料庫進行自動文字分類 新聞語料中類別與目錄的對應關係如下,共十大類別 在data資料夾中有訓練資料集 train 及測試資料集 test 其中train目錄中是已經分類好的文件,每個類別中有6000個文件,而test目錄中共包含20000個所有類別的文件,需要參賽者設計演算法進行自動歸類。...

6 5 競賽題目選講

undraw the trees include includeusing namespace std const int maxn 20000 5,maxl 200 5 int cnt 0,sum 0 string tree maxl struct node node maxn node buil...

百度程式設計競賽題目

原題是這樣子的 題目描述 乙個正整數有可能可以被表示為n n 2 個連續正整數之和,如 15 1 2 3 4 5 15 4 5 6 15 7 8 請編寫程式,根據輸入的任何乙個正整數,找出符合這種要求的所有連續正整數序列 輸入資料 乙個正整數,以命令列引數的形式提供給程式。輸出資料 在標準輸 出上列...