tpr
=tpp
=tpt
p+fn
tpr = \frac = \frac
tpr=pt
p=t
p+fn
tpfpr
=fpn
=fpf
p+tn
fpr = \frac = \frac
fpr=nf
p=f
p+tn
fp
roc曲線的縱座標為tpr,真正率,其實也是召回率。分母為所有實際正樣本。
roc曲線的縱座標為fpr,假正率,是**錯誤的負樣本(實際為負樣本,**成正樣本,所以分子是fp)在所有實際負樣本中的佔比。
roc曲線作為常見的效果評估曲線,優點主要有:
1.tpr關注所有正樣本,fpr關注所有負樣本,所以比較適合評估分類器的整體效能。
2.tpr與fpr都不依賴於類別的具體分布,不會隨類別分布的改變發生變化。
缺點也比較明顯:
1.因為roc曲線不依賴類別的具體分布,所以有時候反倒會成為缺點。假設負樣本n增加了很多,但是曲線卻沒發生變化,相當於系統內產生了大片的fp樣本。在一些最關心正樣本**準確性的場景,這樣就會有問題。
2.如果有類別不平衡的情況,負例的數目眾多致使fpr的增長不明顯,導致roc曲線呈現乙個過分樂觀的效果估計。例如在實際的廣告這種場景中,n樣本遠遠大於p樣本,fp即使增加很多,因為tn的數量太大,fpr的值改變也很小。結果是雖然大量負樣本被錯判成正樣本,在roc曲線上卻無法直觀體現出來。(當然在做ctr預估的時候,我們會用降取樣等手段降低負樣本的數量)
pr曲線中的p,指的是precision,一般稱為精準率,或者查準率。tpr與fpr,分母針對的都是實際正樣本,實際負樣本。而precision的計算方法為:
p re
cisi
on=t
ptp+
fp
precision = \frac
precis
ion=
tp+f
ptp
可以看出,precision的分母是所有**的正樣本。
pr曲線的縱座標,就是precision,橫座標是recall,或者說是tpr。
由此可見,pr曲線的兩個軸關注的都是正樣本。如果是類別不平衡問題,我們關注的又都是正樣本,這種情況下,pr曲線要比roc曲線更好一些。
auc的含義為:分類器將正樣本判斷為正例比將負樣本判斷為正例的概率大的可能性。
所以我們常見的計算auc的方法為:
1.幾何方法。比如在roc曲線中,roc曲線下面的面積就是auc值。
2.假設樣本集中,總共有(m+n)個樣本,其中正樣本m個,負樣本n個,則樣本對為mn個。正樣本**為正樣本的概率值大於負樣本**為正樣本的概率值記為1,累加計數,然後除以(mn)就是auc的值。
計算公式為:
f 1=
2pre
cisi
onpr
ecis
ion+
reca
ll=2
tp2t
p+fn
+f
pf1 = \frac = \frac
f1=pre
cisi
on+r
ecal
l2pr
ecis
ion
=2tp
+fn+
fp2t
pf1值平衡了召回率與查準率,是乙個比較平衡的指標。
PR曲線與ROC曲線
pr曲線中的p代表的是precision 精準率 r代表的是recall 召回率 其代表的是精準率與召回率的關係,一般情況下,將recall設定為橫座標,precision設定為縱座標。在機器學習中,分類器往往輸出的不是類別標號,而是屬於某個類別的概率值,根據分類器的 結果從大到小對樣例進行排序,排...
ROC曲線 PR曲線
在 的結果分析中,roc和pr曲線是經常用到的兩個有力的展示圖。1.roc曲線 roc曲線 receiver operating characteristic 是一種對於靈敏度進行描述的功能影象。roc曲線可以通過描述真陽性率 tpr 和假陽性率 fpr 來實現。由於是通過比較兩個操作特徵 tpr和...
P R曲線和ROC曲線
混淆矩陣又稱錯誤矩陣,指每個類別下,模型 結果的類別和數量在乙個矩陣中展示出來。真實標籤 為正 為負 真實為正 tpfn 真實為負 fptn 又稱為 tpr true positive rate 或者 敏感度sensitivity 通俗理解 真實為正的樣本中識別為正的佔比。t pr tpt p fn...