使用NDCG評估關鍵詞推薦系統的相關性

對於傳統推薦策略，我們在驗證其效果的時候，一般會採用以下流程驗證其實驗效果：

offline 的評測：思路基本和傳統機器學習的思路類似，例如在推薦演算法中我們直接使用auc，f2等評估模型效果一樣，線下使用測試資料就能知道演算法的初步效果。

使用者調研實驗：該方式需要人的參與，例如招一批人，不告訴他們新老演算法的介面或是使用的演算法，然後看使用者的行為，之後使用他們的最終互動，或是選擇判定演算法/互動方案的優略。

線上實驗：最真實的嘗盡，例如小流量進行a/b test

要介紹ndcg，我們首先介紹cg（cummulative gain），其思想比較簡單，就是將相關性的分值累加後，作為某個query/ 請求結果的分值。

reli 為處於位置i的推薦結果與query的相關性， p代表我們要考察前p個結果。

dcg

cg的乙個缺點是cg沒有考慮結果處於不同位置對結果的影響，例如我們總是希望相關性高的結果應排在前面，相關性低的結果排在靠前的位置會嚴重影響使用者體驗，所以需要在cg的基礎上引入位置影響因素，即dcg(discounted cummulative gain)

即相同的相關性rel，排在對整次檢索結果的正向影響，相較於放在後邊更大。

ndcg

例如我們定義：

其中dcg的定義如上， idcg為特定query返回的最好結果，即假設返回結果按照相關性排序，最相關的結果放在最前面，此序列的dcg為idcg。因dcg的值介於 (0，idcg]，故ndcg的值介於(0，1]

具體操作方式

在具體操作中，可以事先確定query和結果的相關係分級，例如可以使用 0，1分別表示相關或不相關，或是這是0~5分別表示嚴重不相關到非常相關。相當於確定了rel值的範圍。

之後對於每乙個query的返回結果給定rel值，然後使用dcg的計算公式計計算出返回結果的dcg值。

使用根據sort後的rel值得序列計算idcg值，即可計算ndcg

參考文獻：

可關注微博： weibo.com/dustinsea

也可直接訪問：