ROC曲線詳解

2021-08-19 09:30:10 字數 2391 閱讀 8752

最近學習遇到這個概念,看了半天總算明白了這個曲線的意義。

—————————————————————————————————分割線

1 roc曲線的概念

受試者工作特徵曲線 (receiver operating characteristic curve,簡稱roc曲線),又稱為 感受性曲線(sensitivity curve)。得此名的原因在於曲線上各點反映著相同的感受性,它們都是對同一 訊號刺激的反應,只不過是在幾種不同的判定標準下所得的結果而已。接受者操作特性曲線就是以假陽性概率(false positive rate)為 橫軸,擊中概率為縱軸所組成的座標圖,和被試在特定刺激條件下由於採用不同的判斷標準得出的不同結果畫出的曲線。

roc 曲線是根據一系列不同的二分類方式(分界值或決定閾),以真陽性率(靈敏度)為縱座標,假陽性率(1-特異度)為橫座標繪製的曲線。傳統的診斷試驗評價方 法有乙個共同的特點,必須將試驗結果分為兩類,再進行統計分析。roc曲線的評價方法與傳統的評價方法不同,無須此限制,而是根據實際情況,允許有中間狀 態,可以把試驗結果劃分為多個有序分類,如正常、大致正常、可疑、大致異常和異常五個等級再進行統計分析。因此,roc曲線評價方法適用的範圍更為廣泛。

2 roc曲線的例子

考慮乙個二分問題,即將例項分成正類(positive)或負類(negative)。對乙個二分問題來說,會出現四種情況。如果乙個例項是正類並且也 被 **成正類,即為真正類(true positive),如果例項是負類被**成正類,稱之為假正類(false positive)。相應地,如果例項是負類被**成負類,稱之為真負類(true negative),正類被**成負類則為假負類(false negative)。

fn:漏報,沒有正確找到的匹配的數目;

tn:正確拒絕的非匹配對數;

列聯表如下表所示,1代表正類,0代表負類。  

從列聯表引入兩個新名詞。其一是真正類率(true positive rate ,tpr), 計算公式為tpr=tp/ (tp+ fn),刻畫的是分類器所識別出的 正例項佔所有正例項的比例。另外乙個是假正類率(false positive rate, fpr),計算公式為fpr= fp / (fp + tn),計算的是分類器錯認為正類的負例項佔所有負例項的比例。還有乙個真負類率(true negative rate,tnr),也稱為specificity,計算公式為tnr=tn/ (fp+ tn) = 1-fpr。

其中,兩列true matches和true non-match分別代表兩行pred matches和pred non-match分別代表匹配上和**匹配上的

fpr = fp/(fp + tn) 負樣本中的錯判率(假警報率)

tpr = tp/(tp + tn) 判對樣本中的正樣本率(命中率)

acc = (tp + tn) / p+n 判對準確率

在乙個二分類模型中,對於所得到的連續結果,假設已確定乙個閥值,比如說 0.6,大於這個值的例項劃歸為正類,小於這個值則劃到負類中。如果減小閥值,減到0.5,固然能識別出更多的正類,也就是提高了識別出的正例佔所有正例 的比類,即tpr,但同時也將更多的負例項當作了正例項,即提高了fpr。為了形象化這一變化,在此引入roc。

receiver operating characteristic,翻譯為」接受者操作特性曲線」,夠拗口的。曲線由兩個變數1-specificity 和 sensitivity繪製. 1-specificity=fpr,即假正類率。sensitivity即是真正類率,tpr(true positive rate),反映了正類覆蓋程度。這個組合以1-specificity對sensitivity,即是以代價(costs)對收益 (benefits)。

此外,roc曲線還可以用來計算「均值平均精度」下表是乙個邏輯回歸得到的結果。將得到的實數值按大到小劃分成10個個數 相同的部分。 

其 正例數為此部分裡實際的正類數。也就是說,將邏輯回歸得到的結 果按從大到小排列,倘若以前10%的數值作為閥值,即將前10%的例項都劃歸為正類,6180個。其中,正確的個數為4879個,佔所有正類的 4879/14084*100%=34.64%,即敏感度;另外,有6180-4879=1301個負例項被錯劃為正類,佔所有負類的1301 /47713*100%=2.73%,即1-特異度。以這兩組值分別作為x值和y值,在excel中作散點圖。

ROC曲線及其matlab實現ROC曲線的繪畫

roc曲線 receiver operating characteristic curve 是利用classification模型真正率 true positive rate 和假正率 false positive rate 作為座標軸,圖形化表示分類方法的準確率的高低。roc圖的一些概念定義 真正...

ROC曲線 PR曲線

在 的結果分析中,roc和pr曲線是經常用到的兩個有力的展示圖。1.roc曲線 roc曲線 receiver operating characteristic 是一種對於靈敏度進行描述的功能影象。roc曲線可以通過描述真陽性率 tpr 和假陽性率 fpr 來實現。由於是通過比較兩個操作特徵 tpr和...

ROC閾值曲線

本文主要介紹乙個評價分類器穩定性的指標 roc閾值曲線。對於乙個已知的二分類結果 假設一共正,負兩個類別 可以把結果的資料分成以下4類 a原來的正類被分為正類,b原來的正類被分為負類,c原來的負類被分為正類,d原來的負類被分為負類。我們把a除以分類後的正類的數量稱作真陽性率 trp 把c除以分類以後...