通過對使用者評分行為的分析,挖掘使用者的興趣及其變化規律,然後**使用者對其他電影的評分。
本次比賽,我們提供了1千萬左右的電影評分資料,每條評分記錄都有時間戳(隱匿了具體時間,只保證順序不變)。評分分為5級,1分最低,5分最高。
我們抽取了超過800萬條評分記錄,作為訓練集,資料檔案名為r1.train,字段格式為:
userid::movieid::rating::timestamp說明:使用者i : : 電影a :: 評分 :: 相對時間
使用者j : : 電影b : :評分: : 相對時間
userid::movieid::rating::timestamp ,四個字段分別代表:使用者編號,電影編號,評分,相對時間;
每一行為乙個使用者對乙個商品的評分,行之間用「回車符」分隔;
每一行各欄位之間用「::」分隔。
我們還抽取了超過200萬條評分記錄,作為測試集。我們隱藏了使用者對於電影的評分,僅保留使用者和商品的評分關係,資料檔案名為r1.test,字段格式為:
userid::movieid::rating::timestamp
使用者i : : 電影a :: ** :: 相對時間說明資訊同訓練集,rating欄位用「**」代替。使用者j : : 電影b : : **: : 相對時間
我們還提供了電影的詳細資訊,資料檔案為movies.dat,格式如下:
movieid::title::genresmovieid是電影編號,title是電影名稱,genres是電影類別資訊。
類別資訊含義如下:
• action
• adventure
• animation
• children』s
• comedy
• crime
• documentary
• drama
• fantasy
• film-noir
• horror
• musical
• mystery
• romance
• sci-fi
• thriller
• war
• western
參賽者需要寫出推薦演算法,**測試集中使用者對於電影的評分。
評分演算法: regression-new_rmse
演算法解釋: 採用均方根誤差rmse來評測整個演算法的推薦準確度
rmse=1
∣∣ep
∣∣∑(
μ,α)
∈ep(
rμα−
r′μα
)2−−
−−−−
−−−−
−−−−
−−−−
−−−
⎷其
中rμα
是使用者μ
對α的實
際評分,
r′μα
是參賽者
對於μ對
α評分的
**值
資料探勘競賽題目 文字分類
使用搜狗語料庫進行自動文字分類 新聞語料中類別與目錄的對應關係如下,共十大類別 在data資料夾中有訓練資料集 train 及測試資料集 test 其中train目錄中是已經分類好的文件,每個類別中有6000個文件,而test目錄中共包含20000個所有類別的文件,需要參賽者設計演算法進行自動歸類。...
6 5 競賽題目選講
undraw the trees include includeusing namespace std const int maxn 20000 5,maxl 200 5 int cnt 0,sum 0 string tree maxl struct node node maxn node buil...
百度程式設計競賽題目
原題是這樣子的 題目描述 乙個正整數有可能可以被表示為n n 2 個連續正整數之和,如 15 1 2 3 4 5 15 4 5 6 15 7 8 請編寫程式,根據輸入的任何乙個正整數,找出符合這種要求的所有連續正整數序列 輸入資料 乙個正整數,以命令列引數的形式提供給程式。輸出資料 在標準輸 出上列...