推薦系統 評估指標總結

2021-10-06 22:57:06 字數 2131 閱讀 2821

準確率指標:

該型別的指標大部分是推薦演算法優化的目標,衡量著推薦演算法的優劣。

準確率。推薦給使用者的商品中,屬於測試集的比例,數學公式p(lu)=lu⋂bulup(lu)=lu⋂bulu 。整個測試集的準確率為 pl=1n∑uϵup(lu)pl=1n∑uϵup(lu)

召回率。測試集中有多少在使用者的推薦列表中。數學公式r(lu)=lu⋂bubur(lu)=lu⋂bubu。整個測試集的召回率為rl=1n∑uϵur(lu)rl=1n∑uϵur(lu)

f1值。準確率和召回率的加權,數學公式 fβ=(1+β2)prβ2p+rfβ=(1+β2)prβ2p+r。

ranking score。數學公式 r=1|eu|∑uiϵeupuim−kur=1|eu|∑uiϵeupuim−ku 其中eueu 表示測試集中所有的邊的集合,如果使用者u對商品i在測試集中,則eui=1eui=1,puipui表示商品i在使用者u的推薦列表中的位置,分母m−kum−ku表示使用者u的所有商品數目中除了使用者已經購買過的商品外的所有商品。該值越小,說明測試集中的商品越靠前。

hit ratio。數學公式 hr@k=numberofhits@k|gt|hr@k=numberofhits@k|gt|. 分母是所有的測試集合,分子是每個使用者前k個中屬於測試集合的個數的總和,該指標衡量是召回率,該指標越大越好。

ndcg。數學定義 ndcg@=zk∑ki=12ri−1log2(i+1)ndcg@=zk∑i=1k2ri−1log2(i+1)。ri表示在第i個位置時的「等級關聯性」,一般可以用0/1處理,如果該位置的物品在測試集合中,則ri=1,否則為0。另外zk是歸一化係數,表示後面的那乙個累加求和公式的最好情況下的和的倒數,也就是ri=1都滿足的情況下的後面那一坨的總和,為了使得ndcg計算出來的數值i都在0-1之內。

交叉熵。這個指標作為其餘機器學習的優化目標用的比較多,該指標在中首先被提出來。**假設如果使用者u購買了物品i,則yui=1yui=1否則yui=0yui=0,則最終的機器學習的模型的優化目標為 l=−∑(u,i)ϵy⋃y−(yuilogy^ui+(1−yui)log(1−y^ui))l=−∑(u,i)ϵy⋃y−(yuilogy^ui+(1−yui)log(1−y^ui)) 。

mae。該指針對適合對資料集擁有打分進行評估,例如豆瓣影評,上面存在對每個電影的1-5的打分。數學公式 mae=∑(u,i)ϵeu|yui−y^ui||eu|mae=∑(u,i)ϵeu|yui−y^ui||eu| 表示所有測試集中推薦**的分和實際使用者打的分的差異,該值越小越好。

rmse。該指標同樣適用於對評分為數值打分的情景。數學公式 rmse=∑(u,i)ϵeu(yui−y^ui)2|eu|−−−−−−−−−−−−√rmse=∑(u,i)ϵeu(yui−y^ui)2|eu| 含義類似於mae。

非準確率指標:

該型別的指標過載衡量推薦的結果的「個性化」「多樣性」「新穎性」等指標,推薦的的願景之一就是「千人千面」,推薦給每個人的商品都是只是他本人的興趣使然,抑或是根據本人興趣進行擴充套件的商品集合。至於為什麼要進行興趣擴充套件,因為「過擬合」同樣是推薦系統面臨的重要挑戰之一,關於推薦系統的「過擬合」現象,在這裡不做展開。

hamming distance. 數學公式 h=1n(n−1)∑(i,j)ϵn,i≠j(1−c(i,j)k)h=1n(n−1)∑(i,j)ϵn,i≠j(1−c(i,j)k) 其中c(i,j)c(i,j)表示使用者 i,j 前k個推薦結果中有多少是相同的個數,n表示所有的使用者數目。海明距離能夠有效衡量兩個使用者推薦列表的差異,該值越大越說明使用者之間的推薦結果越不相同,差異性越大。

intrasimilarity ,內部相關性。數學公式 i=1n∑uϵu(1k(k−1)∑α≠βsαβ)i=1n∑uϵu(1k(k−1)∑α≠βsαβ) 其中sαβsαβ表示商品αβαβ的相似度,相似的計算方式可以是jaccard係數,皮爾森相關係數,向量余弦法等。對於使用者u的推薦列表,如果物品與物品之間的相似度越大,說明推薦給使用者的商品比較單一,推薦演算法越發現不了新的物品;反之,如果該值越小,則推薦的物品越豐富,越有利於對使用者的興趣進行擴充套件。

popularity,流行度指標。數學公式 n=1n∑αϵourdαkn=1n∑αϵorudαk 其中ouroru表示使用者u的前k個推薦物品的集合,dαdα表示αα的被多少使用者購買過,購買次數越多,則該商品越流行。該指標越大,說明推薦演算法傾向於推薦「熱度」越大、越流行的商品;反之,則越傾向於推薦比較冷門的物品,越能反映出使用者的興趣。

推薦系統 常見評估指標 學習筆記

目錄 1 推薦系統簡介 2 推薦系統常見評估指標 2.1 使用者滿意度 2.2 準確率相關 2.3 覆蓋率 2.4 多樣性 2.5 新穎性 2.6 roc auc 1.what 使用者 推薦系統是一種幫助使用者快速發現有用資訊的工具 公司 推薦系統是一種增加公司產品與使用者接觸,購買等行為概率的工具...

推薦演算法 推薦系統的評估

其中 ep 是測試資料集合 rs ua i ualu lu u 待推薦的列表大小 離線測試,使用者 u在測試集中影片數量 未打分的影片數量 iu a 是 影片 a 在使用者推薦列表中的排名ap x i 1x pre dict ioni ch ange inre call i ap 2 p redi ...

用於推薦系統評估的概念與指標(2)

建立衡量日常生活級別新穎性的指標並非易事。新穎性等級1的衡量必須考慮系統上下文中的資訊,以便衡量使用者已知和未知的內容。系統級別的新穎性有許多定義。簡單來說,對使用者而言,新專案是指使用者不知道或者知道很少的專案。有人認為,新穎性是指推薦系統 使用者不知道且通過其他渠道也不會發現的專案。新穎性也被定...