單個主題的平均準確率是每篇相關文件檢索出後的準確率的平均值。主集合的平均準確率(map)是每個主題的平均準確率的平均值。map 是反映系統在全部相關文件上效能的單值指標。系統檢索出來的相關文件越靠前(rank 越高),map就可能越高。如果系統沒有返回相關文件,則準確率預設為0。
例如:假設有兩個主題,主題1有4個相關網頁,主題2有5個相關網頁。某系統對於主題1檢索出4個相關網頁,其rank分別為1, 2, 4, 7;對於主題2檢索出3個相關網頁,其rank分別為1,3,5。對於主題1,平均準確率為(1/1+2/2+3/4+4/7)/4=0.83。對於主題2,平均準確率為(1/1+2/3+3/5+0+0)/5=0.45。則map= (0.83+0.45)/2=0.64。」
計算相對複雜。對於排在結位置n處的ndcg的計算公式如下圖所示:
在map中,四個文件和query要麼相關,要麼不相關,也就是相關度非0即1。ndcg中改進了下,相關度分成從0到r的r+1的等級(r可設定)。當取r=5時,等級設定如下圖所示:
(應該還有r=1那一級,原文件有誤,不過這裡不影響理解)
例如現在有乙個query=,返回下圖左列的ranked list(url),當假設使用者的選擇與排序結果無關(即每一級都等概率被選中),則生成的累計增益值如下圖最右列所示:
考慮到一般情況下使用者會優先點選排在前面的搜尋結果,所以應該引入乙個折算因子(discounting factor): log(2)/log(1+rank)。這時將獲得dcg值(discounted cumulative gain)如下如所示:
最後,為了使不同等級上的搜尋結果的得分值容易比較,需要將dcg值歸一化的到ndcg值。操作如下圖所示,首先計算理想返回結果list的dcg值:
然後用dcg/maxdcg就得到ndcg值,如下圖所示:
是把標準答案在被評價系統給出結果中的排序取倒數作為它的準確度,再對所有的問題取平均。相對簡單,舉個例子:有3個query如下圖所示:
(黑體為返回結果中最匹配的一項)
可計算這個系統的mrr值為:(1/3 + 1/2 + 1)/3 = 11/18=0.61。
IR的評價指標 MAP,NDCG和MRR
單個主題的平均準確率是每篇相關文件檢索出後的準確率的平均值。主集合的平均準確率 map 是每個主題的平均準確率的平均值。map 是反映系統在全部相關文件上效能的單值指標。系統檢索出來的相關文件越靠前 rank 越高 map就可能越高。如果系統沒有返回相關文件,則準確率預設為0。例如 假設有兩個主題,...
評價指標PSNR和SSIM
psnr 峰值訊雜比,單位是db,數值越大表示失真越小。psnr是基於對應畫素點間的誤差,即基於誤差敏感的影象質量評價。由於並未考慮到人眼的視覺特性 人眼對空間頻率較低的對比差異敏感度較高,人眼對亮度對比差異的敏感度較色度高,人眼對乙個區域的感知結果會受到其周圍鄰近區域的影響等 因而經常出現評價結果...
評價指標 分類演算法中常用的評價指標
對於分類演算法,常用的評價指標有 1 precision 2 recall 3 f score 4 accuracy 5 roc 6 auc ps 不建議翻譯成中文,尤其是precision和accuracy,容易引起歧義。1.混淆矩陣 混淆矩陣是監督學習中的一種視覺化工具,主要用於比較分類結果和例...