AUC的相關知識及K S曲線和K S值介紹

tp、fn、fp、tn如圖：

如何計算畫roc曲線，我們將所有所有資料按照**概率有小到大排列：

trr = (tp

tp+f

n)\left(\frac\right)

(tp+fn

tp)

又稱真正率

fpr = (fp

fp+t

n)\left(\frac\right)

(fp+tn

fp)

又稱負正率或假正率

roc曲線的橫軸為fpr,縱軸為tpr。

我們設定閾值為0.1 ，小於等於0.1的判定為假，label為0，大於0.1判斷為真，label為1。可以計算此時的tpr和fpr;同理接下來設定閾值為0.35、0.4、0.8，分別求出tpr和fpr,在圖中畫出，再和(0,0)(1,1)相連，則畫出roc曲線。

我們先建立座標系，縱軸為真正率，橫軸為負正率，恆過（0，0）和（1，1）,為什麼？

在roc曲線圖時，在不同閾值下，tpr和fpr是不一樣的。

auc則為roc下方面積，auc的物理意義和計算公式接下來講解。

auc這個指標想表達的含義，簡單來說其實就是隨機抽出一對樣本（乙個正樣本，乙個負樣本），然後用訓練得到的分類器來對這兩個樣本進行**，**得到正樣本的概率大於負樣本概率的概率。

auc=p(p正》p負)

參考：

共兩種形式，其中注意第二種如下：

如何去理解呢？

參考：

從小到大排序後，第乙個正樣本的位置（序號，序號從0開始），就是其比負樣本得分大的個數；對於第二個正樣本，前面有已經1個正樣本了，所以負樣本個數為位置減去1，同理，第三個正樣本前面的負樣本個數為位置減去2，……，對於第m個正樣本，匹配的負樣本個數為位置序號減去m-1。故而，分子就變成所有正樣本的位置序號和，減去（0+1+2+……+m-1)=sum()-m*(m-1)/2. 若序號從1開始，則，=sum()-m -(0+1+2+……+m-1)=sum()-m(m+1)/2.

k-s(kolmogorov-smirnov)中文名洛倫茲曲線，ks值的取值範圍是[0，1] 。

k-s(kolmogorov-smirnov)：ks用於模型風險區分能力進行評估，指標衡量的是好壞樣本累計分部之間的差值。

好壞樣本累計差異越大，ks指標越大，那麼模型的風險區分能力越強。

ks曲線是兩條線，其橫軸是閾值，縱軸是tpr（上面那條）與fpr（下面那條）的值，值範圍[0，1] 。兩條曲線之間之間相距最遠的地方對應的閾值，就是最能劃分模型的閾值即k-s值。

k-s曲線的縱軸是表示tpr和fpr的值，就是這兩個值可以同時在乙個縱軸上體現，橫軸就是閾值。

k-s值計算公式：k-s=max(tpr-fpr)

k-s值<0.2,一般認為模型沒有區分能力。

k-s值[0.2,0.3],模型具有一定區分能力，勉強可以接受

k-s值[0.3,0.5],模型具有較強的區分能力。

k-s值大於0.75，往往表示模型有異常。

AUC的相關知識及K S曲線和K S值介紹

ks值和auc值的關係

關於ROC曲線和AUC的知識小記

AUC和ROC曲線的前世今生

AUC的相關知識及K S曲線和K S值介紹

ks值和auc值的關係

關於ROC曲線和AUC的知識小記

AUC和ROC曲線的前世今生

相關推薦