auc是常見的對二類分類器的評價指標,其大小等於roc曲線下的面積。
roc曲線的橫座標為false postive rate(fpr),縱座標為true positive rate(tpr),
false postive rate的計算法公式: fp
r=fp
fp+t
n 其中,fp表示false positive,即負例被分成正例的個數,tn表示true negative, 即負例被分成負例的個數,false positive rate 表示負例被分錯的比例。
true postive rate 的計算公式是: tp
r=tp
tp+f
n tp表示true positive,即正例被分成正例的個數,true postive rate表示正例被分對的比例。
從上面的定義可以看出,fpr越低越好,tpr越高越好。所以,roc曲線越接近左上角,表示分類器效能越好。
那麼,如何繪製roc曲線呢?
根據roc曲線的定義,我們只需要得到一組fpr和tpr的值就可以了。具體地,分類器會對每個樣本輸出乙個**值,可以是概率值,也可以是其他含義的數字。假設我們從中選定乙個閾值,大於這個值則將樣本分為正類,小於這個閾值則將樣本分為負類。那麼閾值越高,識別到的true positive 越少,tpr越低,對應地,false positive也會越少,fpr也越低,此時對應於roc曲線上靠近原點的部分;閾值越低,識別到的true positive和false positive越多,tpr和fpr都會公升高,此時,對應roc曲線上靠近(1,1)的部分。所以,roc曲線上的每個點都對應乙個閾值,閾值最大時對應原點,即tpr=fpr=0,即把所有樣本都歸為負類,閾值最小時對應(1,1),此時,把所有的樣本都歸為正類。即縱座標從左到右,閾值是不斷降低的。
那麼,將所有樣本按輸出值從高到低進行排序。對於每個不同的閾值,我們都可以得到一對fpr和tpr。那麼把這些(fpr,tpr)對畫在平面上就構成了roc曲線。點越多,曲線越平滑。
計算時,我們使用積分的思想來計算roc曲線下的面積,即auc。
假設有兩個點a(fp1,tp1)和b(fp2,tp2)(b點在右側),這兩個點之間的陰影面積的大小為(f
p2−f
p1)(
tp1+
tp2)
/2然後得到auc的計算公式:
假設有n個點 au
c=∑i
=1n−
1(fp
i+1−
fpi)
∗(tp
i+tp
i+1)
/21.
2.
簡單梳理對AUC的理解
auc area under curve 是機器學習中二分類模型的乙個評價指標。定義為roc曲線中下的面積,但我們先不管定義。簡單解釋,auc代表的是真陽性率 實際陽性 猜測陽性 偽陽性率 實際陰性 猜測陽性 的概率。就拿 患糖尿病概率這一事例來說,對於真的患有糖尿病的人我們當然應該盡可能 為陽性,...
AUC直觀理解
相信這個問題很多玩家都已經明白了,簡單的概括一下,auc are under curve 是乙個模型的評價指標,用於分類任務。那麼這個指標代表什麼呢?這個指標想表達的含義,簡單來說其實就是隨機抽出一對樣本 乙個正樣本,乙個負樣本 然後用訓練得到的分類器來對這兩個樣本進行 得到正樣本的概率大於負樣本概...
ROC和AUC的理解
roc roc經常被用來評價乙個二值分類器的優劣。舉個例子,有10個樣本。分類器會計算出經過啟用函式前的score,假設score範圍是 0,1 根據score從左到右按降序排序。1,如果分類器效果很好,將樣本完美 pppppnnnnn p表示label為正,n表示label為負 2,如果分類器效果...