模型評價標準重要

jaccard similarity coefficient（傑卡德相似係數）：

兩個集合a和b的交集元素在a，b的並集中所佔的比例，稱為兩個集合的傑卡德相似係數

correlation coefficient（相關係數）：

準確率、召回、fscore：

對於分類器，評價指標主要有precision,recall,f-score,以及auc.樣本在不同類別上的不均衡分布，導致accuracy這樣的度量標準不能恰當的反映分類器的表現。當測試集中的正負樣本的分布變化的時候，roc曲線能夠保持不變。

針對乙個二分類問題，將例項分成正類(postive)或者負類(negative)。但是實際中分類時，會出現四種情況：

(1)若乙個例項是正類並且被**為正類，即為真正類(true postive tp)

(2)若乙個例項是正類，但是被**成為負類，即為假負類(false negative fn)

(3)若乙個例項是負類，但是被**成為正類，即為假正類(false postive fp)

(4)若乙個例項是負類，但是被**成為負類，即為真負類(true negative tn)

roc曲線：

橫軸：false postive rate fpr = fp/(fp+tn) 負類中**錯誤的比例 fpr越大，**正類中實際負類越多

縱軸：true postive rate tpr = tp/(tp+fn) 正類中**正確的比例 tpr越大，**正類中實際正類越多 fpr與tpr沒有相關性，tpr越大越好，fpr越小越好

理想目標：tpr=1，fpr=0,即圖中(0,1)點，故roc曲線越靠攏(0,1)點，越偏離45度對角線越好 (1,1):全部**為正類 (0,0):全部**為負類

auc(area under curve)：roc曲線下的面積，介於0.5和1之間。auc作為數值可以直觀的評價分類器的好壞，值越大越好

對於乙個特定的分類器和測試資料集，顯然只能得到乙個分類結果，即一組fpr和tpr結果，而要得到乙個曲線，我們實際上需要一系列fpr和tpr的值。由分類演算法算出每個測試樣本屬於正樣本的概率(score), 從高到低，依次將「score」值作為閾值threshold，當測試樣本屬於正樣本的概率大於或等於這個threshold時，我們認為它為正樣本，否則為負樣本.每次選取乙個不同的threshold，我們就可以得到一組fpr和tpr，即roc曲線上的一點，這樣即可畫出roc曲線。

auc計算：

1、乙個關於auc的很有趣的性質是，它和wilcoxon-mann-witney test是等價的。而wilcoxon-mann-witney test就是測試任意給乙個正類樣本和乙個負類樣本，正類樣本的score有多大的概率大於負類樣本的score(score理解為**屬於正樣本的概率)。有了這個定義，我們就得到了另外一種計算auc的辦法：得到這個概率。我們知道，在有限樣本中我們常用的得到概率的辦法就是通過頻率來估計之。這種估計隨著樣本規模的擴大而逐漸逼近真實值。這和上面的方法中，樣本數越多，計算的auc越準確類似，也和計算積分的時候，小區間劃分的越細，計算的越準確是同樣的道理。具體來說就是統計所有的 m×n(m為正類樣本的數目，n為負類樣本的數目)個正負樣本對中，有多少個組中的正樣本的score大於負樣本的score。當二元組中正負樣本的 score相等的時候，按照0.5計算。然後除以mn。實現這個方法的複雜度為o(n^2)。n為樣本數（即n=m+n）

2、首先對score從大到小排序，然後令最大score對應的sample 的rank為n，第二大score對應sample的rank為n-1，以此類推。然後把所有的正類樣本的rank相加，再減去兩個正樣本組合的情況(此處我覺得是m(m-1)/2)。得到的就是所有的樣本中有多少對正類樣本的score大於負類樣本的score。然後再除以m×n。即

從auc判斷分類器（**模型）優劣的標準：

NDCG 評價標準

評價標準效能良好的評分模型，應該能夠給予那些引起msg或click的候選會員更高的評分排序靠前從而推薦給指定會員。本次競賽的主要排名標準為normalized discounted cumulative gain ndcg 定義如下這裡rank 1 click msgrec click re...

一些評價標準

分類問題準確率回歸問題 1 rmse root mean square error 均方根誤差，觀測值與真值偏差的平方與觀測次數n比值的平方根 m 樣本個數 y 真實輸出值 y 得到的輸出值 i 第i個樣本 2 mae mean absolute error 平均絕對誤差，又叫平均絕對離差，是所...

模型評價標準 重要

NDCG 評價標準

推薦系統評價標準

一些評價標準

相關推薦

模型評價標準重要