調查問卷:問卷要盡可能詳細分出等級,不要只有滿意或者不滿意。
2.**的準確度(離線測驗)
**準確度是最重要的系統離線測試指標,將離線資料集劃分為訓練集和測試集,通過在訓練集上建立使用者的行為和興趣模型**使用者在測試集上的行為,並計算**行為和測試集上實際行為的重合度作為**準確度。
2.1 評分**
**使用者對物品評分的行為稱為評分**。**準確度一般通過均方根誤差和平均絕對誤差計算其中rui是使用者對物品i的實際評分,yui是**評分
rmse加大了對**不准的使用者物品評分的懲罰,因而對系統的評測更加苛刻。如果評分系統是基於整數建立的,那麼對**結果取整會降低mae的誤差。
2.2 topn推薦
為了全面評測topn推薦的準確率和召回率,一般會選取不同的推薦列表長度n,計算出一組準確率/召回率,然後畫出準確率/召回率曲線。
3.覆蓋率
覆蓋率描述了乙個推薦系統對物品長尾的發掘能力。最簡單的定義為推薦系統能夠推薦的物品佔總物品集合的比例。是內容提供商關心的資料
需要統計推薦列表中不同物品出現次數的分布。如果所有的物品都出現在推薦列表中,且出現的次數差不多,那該推薦系統發掘長尾的能力就很好。如果分布比較平,那麼說明推薦系統的覆蓋率較高,如果分布較為陡峭,說明推薦系統的覆蓋率較低。
可以用資訊熵和基尼指數來表示。(基尼指數越大表示分布越均勻)
一般推薦系統都具有馬太效應(強者更強,弱者更弱),推薦系統目標消除馬太效應(熱搜、排行榜等具有馬太效應)。
4.多樣性
使用者的興趣是廣泛的。推薦列表需要覆蓋使用者不同的興趣領域,即推薦結果需要具有多樣性(不在一棵樹上吊死),儘管使用者的興趣在較長的時間跨度中是不一樣的,但具體到使用者訪問推薦系統的某一刻,其興趣往往是單一的。
多樣性描述了推薦列表中物品兩兩之間的不相似性。相似度越高,多樣性越小。
5.新穎性
驚喜度是指如果推薦結果和使用者歷史興趣不相似,但卻能讓使用者覺得滿意。
提高推薦系統的信任度主要有兩種辦法。首先需要增加推薦系統的透明度,而增加推薦系統同名度的主要方法是通過推薦解釋。
8.實時性
實時性包括兩個方面。首先,推薦系統需要實時地更新推薦列表來滿足使用者新的行為變化。第二方面是推薦系統需要能夠將新加入系統的物品推薦給使用者。(系統處理物品冷啟動問題)
9.健壯性
演算法健壯性的評測主要利用模擬攻擊。首先,給定乙個資料集和乙個演算法,可以用這個演算法給這個資料集中的使用者生成推薦列表。然後,用常用的攻擊方法向資料集中注入雜訊資料,然後利用演算法在注入雜訊後的資料集上再次給使用者生成推薦列表。最後,通過比較攻擊前後推薦列表的相似度評測演算法的健壯性。
總結:對於離線優化的指標。在給定覆蓋率、多樣性、新穎性等限制條件下,盡量優化**準確度。
推薦系統學習之評測指標
1.處理資料集 將使用者行為資料集按照均勻分布隨機分成m份,挑選乙份作為測試集,剩下的m 1份作為訓練集 import random def splitdata data,m,k,seed test train random.seed seed for user,item in data if ra...
推薦系統之評測指標
前言 在接下來的一段時間,我將學習 推薦系統實踐 這本書,打算把每天學習的內容進行總結寫成部落格,今天是第一篇,主要內容是關於推薦系統的一些常見指標。1.推薦系統實驗方法 2.評測指標 2.1 使用者滿意度 2.2 準確度 準確度度量乙個推薦系統或者推薦演算法 使用者行為的能力,主要通過離線計算獲得...
推薦系統評測指標之RMSE MSE
coding utf 8 fromloadmovielensimport importmath 評測指標 rmse 均方根誤差 mae 平均絕對誤差 defgetrmse prefer1,prefer2 rmse 0 forkey1,valueinprefer1.items zonghe 0 迭代測...