推薦模型評價指標 AUC

2021-09-23 10:25:14 字數 2424 閱讀 4477

推薦中常用的模型評價指標有準確率,召回率,f1-score和auc。

1. 什麼是auc

auc指標是乙個[0,1]之間的實數,代表如果隨機挑選乙個正樣本和乙個負樣本,分類演算法將這個正樣本排在負樣本前面的概率。值越大,表示分類演算法更有可能將正樣本排在前面,也即演算法準確性越好。

2. auc的計算方法

第三種的計算方法與第二種是一樣的,分子也是計算滿足正樣本被**為正樣本的概率值大於負樣本被**為正樣本的概率值的《正樣本,負樣本》對個數。將所有正樣本排在前面的樣本對求和,再減去《正樣本,正樣本》對的個數。

3. roc曲線

數學上的背景

考慮乙個二分類問題,分類結果有四種情況:

(1) 若sample是正類,並且被**為正類,即為真正類(true postive tp)

(2) 若sample是正類,但被**成為負類,即為假負類(false negative fn)

(3) 若sample是負類,但被**成為正類,即為假正類(false postive fp)

(4) 若sample是負類,並且被**為負類,即為真負類(true negative tn)

實際\**10

1tpfnactual positive tp+fn0fp

tnactual negative fp+tn

predicted positive tp+fp

predicted negative fn+tn

下面是乙個簡單的圖例:

line1和line2分別表示乙個閾值,以line1為例,左邊是正樣本的分布,右邊是負樣本的分布,虛線左側**為正,右側**為負。那麼line1左側白色部分的面積即為tp,虛線部分的面積為fp,line1右側白色部分的面積為tn,虛線部分的面積為fn。

定義:準確率(accuracy acc):tp+

tntp

+fn+

fp+t

n}tp+fn+

fp+t

ntp+

tn​

真正類率(true postive rate tpr): tpt

p+fn

}tp+fnt

p​,代表分類器**的正類中實際正例項佔所有正例項的比例

負正類率(false postive rate fpr):fpf

p+tn

}fp+tnf

p​,代表分類器**的正類中實際負例項佔所有負例項的比例。

真負類率(true negative rate tnr):tnf

p+tn

}fp+tnt

n​,描述識別出的負例佔所有負例的比例

tpr也叫敏感度(sensitivity),tnr稱為特異度(specificity)

結合上面的圖,當虛線從line1移至line2,tpr在變大,fpr也在變大,tnr在變小,即敏感度變高,特異度變低。舉乙個例項,假設我們要**乙個人是否有糖尿病,有則為正樣本,無則為負樣本,那麼左邊是糖尿病人的血糖水平分布,右邊是健康人的血糖水平分布。我們把閾值定為line1時,特異度高,健康人誤診率低,當閾值為line2時,敏感度高,基本大部分糖尿病人都可以被檢測出來,漏診率低。

roc曲線

如果我們以特異度tnr為橫軸,敏感度tpr為縱軸畫出樣本的曲線,即為roc曲線。

舉個例子:

sample

class

score1p

0.92

p0.83n

0.74

p0.65p

0.556p

0.547n

0.538n

0.529p

0.5110n

0.50511p

0.412

n0.3913p

0.3814n

0.3715n

0.3616n

0.3517p

0.3418n

0.3319p

0.3020n

0.1然後將socre從高到低取為閾值,大於等於閾值**為正例,小於閾值**為負例。當閾值為0.9時,tpr = 1/10 = 0.1,tnr = 0/10 = 0;閾值為0.8時,tpr = 1/10 = 0.1,tnr = 0/10 = 0;閾值為0.7時,tpr = 2/10 = 0.2,tnr = 1/10 = 0.1,以此類推,可以畫出roc曲線如下所示:

推薦系統評價指標 AUC和GAUC

auc是推薦系統中最常用的模型評價指標。基礎概念要常看常新,最近複習了一遍auc的概念,在此做個筆記。本文力求簡潔系統地理解auc的概念和計算方法,auc在推薦 廣告領域的侷限性以及解決這一問題的另乙個指標 group auc gauc 認識auc的第一步,是看懂混淆矩陣 真實10 1tpfp0 f...

機器學習推薦系統評價指標之AUC

auc是機器學習模型中常見評價指標,在推薦系統中也十分常見。和常見的評價指標acc,p,r相比,auc具備一定的優勢。一般說起auc,都會從混淆矩陣,acc,精確率p,召回率r,然後說到roc,再到auc,我在這裡簡單的梳理一下 由混淆矩陣引出tp,fp,fn和tn。接著引出準確率,精確率,召回率和...

二分類模型評價指標 AUC

auc的含義和計算 auc針對二分類模型效果進行評價,二分類模型有時可能得到的是乙個概率值,這個概率值表明為 0或1類 的可能性 不同於決策樹分類,我們會直接得到乙個確切分類 我們劃定乙個具體概率值p,大於則為正,小於則為負,然後使用acc或其他指標評價,其實這樣做有很大漏洞,我們不能準確找到這個具...