機器學習筆記(一)ROC與AUC的定義與概念

2021-09-01 11:47:59 字數 2267 閱讀 6453

roc綜述為「受試者工作特徵」(receiver operation characteristic),其對於組織分類器和將分類器的效能視覺化十分有用。

它最先由二戰的電子工程師發明,用於偵測戰場上的敵軍載具,是訊號檢測理論的重要組成部分,最近經常用於機器學習和資料探勘研究,可以用於:(1)選擇最優的分類模型(2)在模型中設定最佳閾值

首先我們給出真陽性(true positive)、假陽性(false positive)、真陰性(true negative)和假陰性(false negative)的定義:

真實結果↓**結果→

正例反例

正例tp(真陽性)

fn(假陰性)

反例fp(假陽性)

tn(真陰性)

若為二元分類模型,則兩類分別對應陽性和陰性;若是連續值則我們需要設定乙個閾值,通過與這乙個閾值比較來確定陰陽性。

我們定義真陽性率tpr

tprtp

r 和偽陽性率 fpr

fprfp

r 如下:

t pr

=tpp

=tpt

p+fn

\large = \frac}

tpr=pt

p​=t

p+fn

tp​

f pr

=fpn

=fpf

p+tn

\large = \frac}

fpr=nf

p​=f

p+tn

fp​

類似,我們還有以下:

準確率 acc

=tp+

tnp+

n\large}

acc=p+

ntp+

tn​

真陰性率 tnr

=tnf

p+tn

tnr = \large}

tnr=fp

+tnt

n​陰性**值 npv

=tnt

n+fn

\large}

npv=tn

+fnt

n​陽性**值 ppv

=tpt

p+fr

\large}

ppv=tp

+frt

p​假發現率 fdr

=fpf

p+tp

\large}

fdr=fp

+tpf

p​我們以tpr

tprtp

r(真陽性率)和fpr

fprfp

r(偽陰性率)為縱軸和橫軸,繪製roc曲線:

若我們的樣例數是有限的,則我們可以通過以下步驟繪製近似roc圖:

我們設前乙個標記點座標為(x,

y)(x, y)

(x,y

),若當前為真陽性(tptp

tp),則當前座標為(x,

y+1m

+)(x, y+\frac)

(x,y+m

+1​)

,若當前為偽陽性(fpfp

fp),則當前座標為(x+

1m−,

y)(x+\frac, y)

(x+m−1

​,y)

若乙個學習器的roc曲線將另乙個學習器的roc曲線完全「包住」,則後者的效能優於前者;在交叉的情況下,我們通過判斷roc曲線下面的面積來判斷學習器的優劣,故有了auc的定義

auc(area under the curve of roc),顧名思義,其值為roc曲線下面的面積

假定roc曲線是由座標為

\的點按序連線成的(x1

=0,x

m=1)

(x_1 = 0, x_m=1)

(x1​=0

,xm​

=1),則auc可估算為

a uc

=12∑

i=1m

−1(x

i+1−

xi)⋅

(yi+

yi+1

)\large\sum_^(x_-x_)\cdot(y_i+y_)}

auc=21

​∑i=

1m−1

​(xi

+1​−

xi​)

⋅(yi

​+yi

+1​)

根據auc判斷分類器優劣如下:

瞎聊機器學習 PR曲線 ROC曲線 AUC

roc曲線經常作為評估二分類的重要指標,其起源於軍事領域,全稱叫做receiver operating characteristic curve。roc曲線是二維平面內的曲線,其橫座標為假陽性率 fpr 縱座標為真陽性率 tpr 他們的計算方法如下 上式中 舉個例子 假設有10個人疑似感冒了,其中有...

ROC與AUC的資料彙總

roc曲線可以認為越靠上代表分類效果越好,網上的介紹是非常的多,在這裡重點是在說明其中的乙個應用,下面還會有部分介紹,但是具體沒有提及的部分可以網上另外查,不是本文重點。常用的二分類演算法如邏輯回歸,往往需要根據業務需求設定乙個臨界值 用以分開0和1,預設是0.5 我們舉乙個列子來說明這個 臨界值 ...

機器學習中ROC及AUC通俗易懂的解釋

roc receiver operating characteristic curve 接收者操作特徵曲線。auc area under curve 上面曲線與x,y軸形成的最大面積。如果你實在不理解roc的中文註解,那就簡單了解一下就行了,點到為止吧!步入正題 step1 roc 首先告訴你roc...