對AUC的理解

2021-09-30 13:25:20 字數 1290 閱讀 9266

auc是常見的對二類分類器的評價指標,其大小等於roc曲線下的面積。

roc曲線的橫座標為false postive rate(fpr),縱座標為true positive rate(tpr),

false postive rate的計算法公式: fp

r=fp

fp+t

n 其中,fp表示false positive,即負例被分成正例的個數,tn表示true negative, 即負例被分成負例的個數,false positive rate 表示負例被分錯的比例。

true postive rate 的計算公式是: tp

r=tp

tp+f

n tp表示true positive,即正例被分成正例的個數,true postive rate表示正例被分對的比例。

從上面的定義可以看出,fpr越低越好,tpr越高越好。所以,roc曲線越接近左上角,表示分類器效能越好。

那麼,如何繪製roc曲線呢?

根據roc曲線的定義,我們只需要得到一組fpr和tpr的值就可以了。具體地,分類器會對每個樣本輸出乙個**值,可以是概率值,也可以是其他含義的數字。假設我們從中選定乙個閾值,大於這個值則將樣本分為正類,小於這個閾值則將樣本分為負類。那麼閾值越高,識別到的true positive 越少,tpr越低,對應地,false positive也會越少,fpr也越低,此時對應於roc曲線上靠近原點的部分;閾值越低,識別到的true positive和false positive越多,tpr和fpr都會公升高,此時,對應roc曲線上靠近(1,1)的部分。所以,roc曲線上的每個點都對應乙個閾值,閾值最大時對應原點,即tpr=fpr=0,即把所有樣本都歸為負類,閾值最小時對應(1,1),此時,把所有的樣本都歸為正類。即縱座標從左到右,閾值是不斷降低的

那麼,將所有樣本按輸出值從高到低進行排序。對於每個不同的閾值,我們都可以得到一對fpr和tpr。那麼把這些(fpr,tpr)對畫在平面上就構成了roc曲線。點越多,曲線越平滑。

計算時,我們使用積分的思想來計算roc曲線下的面積,即auc。

假設有兩個點a(fp1,tp1)和b(fp2,tp2)(b點在右側),這兩個點之間的陰影面積的大小為(f

p2−f

p1)(

tp1+

tp2)

/2然後得到auc的計算公式:

假設有n個點 au

c=∑i

=1n−

1(fp

i+1−

fpi)

∗(tp

i+tp

i+1)

/21.

2.

簡單梳理對AUC的理解

auc area under curve 是機器學習中二分類模型的乙個評價指標。定義為roc曲線中下的面積,但我們先不管定義。簡單解釋,auc代表的是真陽性率 實際陽性 猜測陽性 偽陽性率 實際陰性 猜測陽性 的概率。就拿 患糖尿病概率這一事例來說,對於真的患有糖尿病的人我們當然應該盡可能 為陽性,...

AUC直觀理解

相信這個問題很多玩家都已經明白了,簡單的概括一下,auc are under curve 是乙個模型的評價指標,用於分類任務。那麼這個指標代表什麼呢?這個指標想表達的含義,簡單來說其實就是隨機抽出一對樣本 乙個正樣本,乙個負樣本 然後用訓練得到的分類器來對這兩個樣本進行 得到正樣本的概率大於負樣本概...

ROC和AUC的理解

roc roc經常被用來評價乙個二值分類器的優劣。舉個例子,有10個樣本。分類器會計算出經過啟用函式前的score,假設score範圍是 0,1 根據score從左到右按降序排序。1,如果分類器效果很好,將樣本完美 pppppnnnnn p表示label為正,n表示label為負 2,如果分類器效果...