模型評價標準 重要

2022-03-17 10:42:31 字數 2948 閱讀 2946

jaccard similarity coefficient(傑卡德相似係數): 

兩個集合a和b的交集元素在a,b的並集中所佔的比例,稱為兩個集合的傑卡德相似係數

correlation coefficient(相關係數)

準確率、召回、fscore

對於分類器,評價指標主要有precision,recall,f-score,以及auc.樣本在不同類別上的不均衡分布,導致accuracy這樣的度量標準不能恰當的反映分類器的表現。當測試集中的正負樣本的分布變化的時候,roc曲線能夠保持不變。

針對乙個二分類問題,將例項分成正類(postive)或者負類(negative)。但是實際中分類時,會出現四種情況:

(1)若乙個例項是正類並且被**為正類,即為真正類(true postive tp)

(2)若乙個例項是正類,但是被**成為負類,即為假負類(false negative fn)

(3)若乙個例項是負類,但是被**成為正類,即為假正類(false postive fp)

(4)若乙個例項是負類,但是被**成為負類,即為真負類(true negative tn)

roc曲線

橫軸:false postive rate fpr = fp/(fp+tn)  負類中**錯誤的比例  fpr越大,**正類中實際負類越多

縱軸:true postive rate tpr = tp/(tp+fn)   正類中**正確的比例  tpr越大,**正類中實際正類越多  fpr與tpr沒有相關性,tpr越大越好,fpr越小越好

理想目標:tpr=1,fpr=0,即圖中(0,1)點,故roc曲線越靠攏(0,1)點,越偏離45度對角線越好       (1,1):全部**為正類  (0,0):全部**為負類

auc(area under curve):roc曲線下的面積,介於0.5和1之間。auc作為數值可以直觀的評價分類器的好壞,值越大越好

對於乙個特定的分類器和測試資料集,顯然只能得到乙個分類結果,即一組fpr和tpr結果,而要得到乙個曲線,我們實際上需要一系列fpr和tpr的值。由分類演算法算出每個測試樣本屬於正樣本的概率(score), 從高到低,依次將「score」值作為閾值threshold,當測試樣本屬於正樣本的概率大於或等於這個threshold時,我們認為它為正樣本,否則為負樣本.每次選取乙個不同的threshold,我們就可以得到一組fpr和tpr,即roc曲線上的一點,這樣即可畫出roc曲線。

auc計算

1、乙個關於auc的很有趣的性質是,它和wilcoxon-mann-witney test是等價的。而wilcoxon-mann-witney test就是測試任意給乙個正類樣本和乙個負類樣本,正類樣本的score有多大的概率大於負類樣本的score(score理解為**屬於正樣本的概率)。有了這個定義,我們就得到了另外一種計 算auc的辦法:得到這個概率。我們知道,在有限樣本中我們常用的得到概率的辦法就是通過頻率來估計之。這種估計隨著樣本規模的擴大而逐漸逼近真實值。這 和上面的方法中,樣本數越多,計算的auc越準確類似,也和計算積分的時候,小區間劃分的越細,計算的越準確是同樣的道理。具體來說就是統計所有的 m×n(m為正類樣本的數目,n為負類樣本的數目)個正負樣本對中,有多少個組中的正樣本的score大於負樣本的score。當二元組中正負樣本的 score相等的時候,按照0.5計算。然後除以mn。實現這個方法的複雜度為o(n^2)。n為樣本數(即n=m+n)

2、 首先對score從大到小排序,然後令最大score對應的sample 的rank為n,第二大score對應sample的rank為n-1,以此類推。然後把所有的正類樣本的rank相加,再減去兩個正樣本組合的情況(此處我覺得是m(m-1)/2)。得到的就是所有的樣本中有多少對正類樣本的score大於負類樣本的score。然後再除以m×n。即

從auc判斷分類器(**模型)優劣的標準:

NDCG 評價標準

評價標準 效能良好的評分模型,應該能夠給予那些引起msg或click的候選會員更高的評分 排序靠前 從而推薦給指定會員。本次競賽的主要排名標準為normalized discounted cumulative gain ndcg 定義如下 這裡rank 1 click msgrec click re...

推薦系統評價標準

如果乙個智慧型系統的智慧型程度很弱的話,對於工業界來說,完全可以不用智慧型系統。假象你推薦給使用者的東西效果很差的話,還不如推薦給使用者一些比較hot的東西。那麼,如何來評價乙個推薦系統的效果呢?1 accuracy 準確性是乙個可以量化的指標,在學術界,評價乙個推薦系統最重要的指標就是看看你 的分...

一些評價標準

分類問題 準確率 回歸問題 1 rmse root mean square error 均方根誤差,觀測值與真值偏差的平方與觀測次數n比值的平方根 m 樣本個數 y 真實輸出值 y 得到的輸出值 i 第i個樣本 2 mae mean absolute error 平均絕對誤差,又叫平均絕對離差,是所...