二元分類器是指要輸出(**)的結果只有兩種類別的模型,既然是一種**模型,則實際情況一定是有些結果猜對了,有些結果猜錯了。因為二元分類器的**結果有兩種類別,對應其真實值,則會有以下四種情形:
**為陽性,真實為陰性(偽陽性)
**為陰性,真實為陽性(偽陰性)
**為陰性,真實為陰性(真陰性)
**為陽性,真實為陽性(真陽性)
roc 空間
在訊號檢測理論中,接收者操作曲線(receiver operating characteristic curve)是一種座標圖式的分析工具。
roc空間是乙個以偽陽性率(fpr,false positive rate)為x軸,真陽性率(tpr, true positive rate)為y軸的二維座標系所代表的平面。
tpr:真陽性率,所有陽性樣本中(tp+fn),被分類器正確判斷為陽的比例。
tpr = tp / (tp + fn) = tp / 所有真實值為陽性的樣本個數
fpr:偽陽性率,所有陰性樣本中(fp+tn),被分類器錯誤判斷為陽的比例。
fpr = fp / (fp + tn) = fp / 所有真實值為陰性的樣本個數
我們想象這樣乙個場景,接觸陽性樣本可以給我們帶來收益,接觸陰性樣本則會給我們造成成本。並且如果我們接觸樣本中所有的陽性樣本,我們的收益是1,接觸樣本中所有陰性樣本,我們的成本也是1。如果不接觸樣本,則既不產生收益也不產生成本。自然的,如果不適用分類器,接觸所有樣本,則總的效益為1-1=0。現在讓我們利用分類器來決定是否接觸樣本,分類器**為陽,我們就去接觸樣本,分類器**為陰,我們就不去接觸。
那麼乙個分類器的分類效果就對應roc空間裡的乙個點:
a,b,c三個點可以分別代表三個不同的分類器對同樣的樣本做**的結果。
最好的方法是a,因為他的收益大於成本(tpr>fpr),最差的是c(tpr這裡有趣的一點是若把c以(0.5, 0.5)為中點作乙個映象,得到c』, c』的效果比a要來的好。c』相當於乙個做與c**結果完全相反的分類器。
實際的應用當中,分類器還會給出它**某個樣本為陽的概率,並且有乙個事先給定的門檻值(threshold),概率高於threshold的就**為陽性,低於threshold的就**為陰性。假設以下是某個分類器對id為1-10的客戶的分類結果:
其中probability of 1為分類器判斷該樣本為陽性的概率,true class為該樣本的真實情況。
如果我們把threshold定位0.5,即去接觸id為1~8的客戶。此時
tpr = tp / 所有真實值為陽性的樣本個數 = 6 / 6 = 1
fpr = fp / 所有真實值為陰性的樣本個數 = 2 / 4 = 0.6
同理,如果我們把threshold定位0.8,即去接觸id為1~5的客戶。此時
tpr = tp / 所有真實值為陽性的樣本個數 = 4 / 6 = 0.67
這兩個threshold分別對應roc空間中的兩個點a、bfpr = fp / 所有真實值為陰性的樣本個數 = 1 / 4 = 0.25
上面的例子當中,共有10筆**資料,則一共有11種threshold的設定方法,每乙個threshold對應roc空間中的乙個點,把這些點連線起來,就成了roc曲線。ROC與AUC的資料彙總
roc曲線可以認為越靠上代表分類效果越好,網上的介紹是非常的多,在這裡重點是在說明其中的乙個應用,下面還會有部分介紹,但是具體沒有提及的部分可以網上另外查,不是本文重點。常用的二分類演算法如邏輯回歸,往往需要根據業務需求設定乙個臨界值 用以分開0和1,預設是0.5 我們舉乙個列子來說明這個 臨界值 ...
分類器效能指標之ROC曲線 AUC值
一 roc曲線 1 roc曲線 接收者操作特徵 receiveroperating characteristic roc曲線上每個點反映著對同一訊號刺激的感受性。橫軸 負正類率 false postive rate fpr 特異度,劃分例項中所有負例佔所有負例的比例 1 specificity 縱軸...
分類器效能指標之ROC曲線 AUC值
一roc曲線 1 roc曲線 接收者操作特徵 receiveroperating characteristic roc曲線上每個點反映著對同一訊號刺激的感受性。橫軸 負正類率 false postive rate fpr 特異度,劃分例項中所有負例佔所有負例的比例 1 specificity 縱軸 ...