roc綜述為「受試者工作特徵」(receiver operation characteristic),其對於組織分類器和將分類器的效能視覺化十分有用。
它最先由二戰的電子工程師發明,用於偵測戰場上的敵軍載具,是訊號檢測理論的重要組成部分,最近經常用於機器學習和資料探勘研究,可以用於:(1)選擇最優的分類模型(2)在模型中設定最佳閾值
首先我們給出真陽性(true positive)、假陽性(false positive)、真陰性(true negative)和假陰性(false negative)的定義:
真實結果↓**結果→
正例反例
正例tp(真陽性)
fn(假陰性)
反例fp(假陽性)
tn(真陰性)
若為二元分類模型,則兩類分別對應陽性和陰性;若是連續值則我們需要設定乙個閾值,通過與這乙個閾值比較來確定陰陽性。
我們定義真陽性率tpr
tprtp
r 和偽陽性率 fpr
fprfp
r 如下:
t pr
=tpp
=tpt
p+fn
\large = \frac}
tpr=pt
p=t
p+fn
tp
f pr
=fpn
=fpf
p+tn
\large = \frac}
fpr=nf
p=f
p+tn
fp
類似,我們還有以下:
準確率 acc
=tp+
tnp+
n\large}
acc=p+
ntp+
tn
真陰性率 tnr
=tnf
p+tn
tnr = \large}
tnr=fp
+tnt
n陰性**值 npv
=tnt
n+fn
\large}
npv=tn
+fnt
n陽性**值 ppv
=tpt
p+fr
\large}
ppv=tp
+frt
p假發現率 fdr
=fpf
p+tp
\large}
fdr=fp
+tpf
p我們以tpr
tprtp
r(真陽性率)和fpr
fprfp
r(偽陰性率)為縱軸和橫軸,繪製roc曲線:
若我們的樣例數是有限的,則我們可以通過以下步驟繪製近似roc圖:
我們設前乙個標記點座標為(x,
y)(x, y)
(x,y
),若當前為真陽性(tptp
tp),則當前座標為(x,
y+1m
+)(x, y+\frac)
(x,y+m
+1)
,若當前為偽陽性(fpfp
fp),則當前座標為(x+
1m−,
y)(x+\frac, y)
(x+m−1
,y)
若乙個學習器的roc曲線將另乙個學習器的roc曲線完全「包住」,則後者的效能優於前者;在交叉的情況下,我們通過判斷roc曲線下面的面積來判斷學習器的優劣,故有了auc的定義
auc(area under the curve of roc),顧名思義,其值為roc曲線下面的面積
假定roc曲線是由座標為
\的點按序連線成的(x1
=0,x
m=1)
(x_1 = 0, x_m=1)
(x1=0
,xm
=1),則auc可估算為
a uc
=12∑
i=1m
−1(x
i+1−
xi)⋅
(yi+
yi+1
)\large\sum_^(x_-x_)\cdot(y_i+y_)}
auc=21
∑i=
1m−1
(xi
+1−
xi)
⋅(yi
+yi
+1)
根據auc判斷分類器優劣如下:
瞎聊機器學習 PR曲線 ROC曲線 AUC
roc曲線經常作為評估二分類的重要指標,其起源於軍事領域,全稱叫做receiver operating characteristic curve。roc曲線是二維平面內的曲線,其橫座標為假陽性率 fpr 縱座標為真陽性率 tpr 他們的計算方法如下 上式中 舉個例子 假設有10個人疑似感冒了,其中有...
ROC與AUC的資料彙總
roc曲線可以認為越靠上代表分類效果越好,網上的介紹是非常的多,在這裡重點是在說明其中的乙個應用,下面還會有部分介紹,但是具體沒有提及的部分可以網上另外查,不是本文重點。常用的二分類演算法如邏輯回歸,往往需要根據業務需求設定乙個臨界值 用以分開0和1,預設是0.5 我們舉乙個列子來說明這個 臨界值 ...
機器學習中ROC及AUC通俗易懂的解釋
roc receiver operating characteristic curve 接收者操作特徵曲線。auc area under curve 上面曲線與x,y軸形成的最大面積。如果你實在不理解roc的中文註解,那就簡單了解一下就行了,點到為止吧!步入正題 step1 roc 首先告訴你roc...