ks 曲線 模型演算法基礎 KS曲線

2021-10-14 11:17:03 字數 1006 閱讀 2612

原創: 慄老師 金科應用研院

關於判斷邏輯回歸模型的分別能力,我們前面已經介紹了基尼係數和roc曲線,今天我們來介紹一下ks曲線。ks曲線主要體現了模型對違約物件的區分能力,通常是在模型**全體樣本的評分後,將全體樣本按好客戶(未逾期)和壞客戶(逾期)分為兩部分,然後用ks統計量來檢驗這兩組樣本評分的分布是否有顯著差異。

ks曲線的橫座標是將所有樣本的評分結果從小到大排序後等分為10組,縱座標是好客戶和壞客戶的累積比率。舉個栗子:

和前面介紹roc曲線時一樣,由於將評分結果相等的的樣本都劃分為了一組,因此每一組的樣本數並不完全相等。第i組的好客戶累積個數等於前i組好客戶個數的總和,好客戶累積比率等於好客戶累積個數佔好客戶總個數的比值,壞客戶同理。

這樣,有了好客戶和壞客戶的累積比率,我們就可以畫出ks曲線了:

上表中的差值指的是壞客戶和好客戶的累積比率之間的差值,ks值(統計量)值的就是差值中的最大值,反映了模型區分好壞客戶的能力。值越大,模型的**準確性越好。

不難發現,ks曲線中的所謂「累積比率」其實就是roc曲線中的tpr和fpr。roc曲線以fpr為橫軸,tpr為縱軸,而ks曲線以閾值為橫軸,tpr、fpr為縱軸。所以說,從某種角度看,roc曲線和ks曲線其實是一回事。

附上r**:

不定期分享乾貨資料,與行業內總監大咖一起討論風控經驗~

ks 曲線 ROC曲線與KS曲線的理解

roc曲線 roc曲線是評判乙個模型好壞的標準,有兩個值要知道,fpr 假正率 和tpr 真正率 roc曲線就是以這兩個值為座標軸畫的。比如邏輯回歸得到的結果是概率,那麼就要取閾值來劃分正負,這時候,每劃乙個閾值,就會產生一組fpr和tpr的值,然後把這組值畫成座標軸上的乙個點,這樣,當選取多組閾值...

ks 曲線 R語言計算KS值 繪製KS曲線

將 封裝在函式plotks n裡,pred var是 結果,可以是評分或概率形式 labels var是好壞標籤,取值為1或0,1代表壞客戶,0代表好客戶 descending用於控制資料按違約概率降序排列,如果pred var是評分,則descending 0,如果pred var是概率形式,則d...

ks 曲線 R語言實現KS曲線

將 封裝在函式plotks n裡,pred var是 結果,可以是評分或概率形式 labels var是好壞標籤,取值為1或0,1代表壞客戶,0代表好客戶 descending用於控制資料按違約概率降序排列,如果pred var是評分,則descending 0,如果pred var是概率形式,則d...