一、網際網路金融中需要關注的風控逾期指標
1.逾期天數 dpd (days past due)
自應還日次日起到實還日期間的日期數
舉例:dpdn+表示逾期天數 >=n天,如dpd30+表逾期天數 >=30天的合同
2.逾期期數
自應還日次日起到實還日期間的日期數
舉例:正常資產用c表示
mn表示逾期n期:m1逾期一期,m2逾期二期,m3逾期三期,m4逾期四期,m5逾期五期,m6逾期六期
mn+表示逾期n期(含)以上,m7+表示逾期期數 >=m7
3.貸款餘額 enr
至某時點借款人尚未償還的本金,即:全部剩餘本金作為貸款餘額
4.月均貸款餘額 anr
月均貸款餘額 = (月初貸款餘額 + 月末貸款餘額)/2,月初貸款餘額即上月月底貸款餘額
5.c,m1,m2,m3…的貸款餘額
根據逾期期數(c,m1,m2,m3…),計算每條借款的當時的貸款餘額
貸款餘額 = 放款時合同額 –已還本金
已還本金 = (放款日次日 ~ t-1)的還款本金總額
6.核銷金額
貸款逾期m7後經審核進行銷帳,核銷金額即在核銷日期當天的貸款餘額
7.**金額 recovery
來自歷史所有已核銷合同的全部實收金額
8.淨壞賬 ncl
當月新增核銷金額 – 當月**金額
9.在賬月份 mob
放款後的月份
舉例:mob0,放款日至當月月底
mob1,放款後第二個完整月份
mob2,放款後第三個完整月份
10.(c->m1、m1->m2、m2->m3、m3->m4、m4->m5、m5->m6)滾動率 flow rate
舉例:c-m1=當月進入m1的貸款餘額/上月末c的貸款餘額
m2-m3=當月進入m3的貸款餘額/上月末m2的貸款餘額
當月不同逾期期數的貸款餘額/當月底總貸款餘額
舉例:coin(m1)%=當月m1貸款餘額/當月底貸款餘額(c-m6)
coin(m1+)%=當月m1−m6貸款餘額/當月底貸款餘額(c-m6)
12.逾期率lagged(m1)%、lagged(m2)%、lagged(m3)%、lagged(m4)%、lagged(m5)%、lagged(m6)%
當月不同逾期期數的貸款餘額/往前推n個月的總貸款餘額
舉例:lagged(m1)%=當月m1的貸款餘額/上個月底的貸款餘額(c~m6)
lagged(m4)%=當月m4的貸款餘額/往前推四期的 總貸款餘額
lagged(m4+)%=當月m4的貸款餘額/往前推四期的總貸款餘額
+ 當月m5的貸款餘額/往前推五期的總貸款
+ 當月m6的貸款餘額/往前推六期的總貸款餘額
13.賬齡分析vintage
統計每個月新增放款在之後各月的逾期情況
解讀模型評估指標
在建好模型後,我們需要對模型的質量進行評估。模型中常見的分類模型評估指標一般是通過混淆矩陣計算而來。
二、解讀模型評估指標
模型評估之 — 混淆矩陣
混淆矩陣
tp(實際為正**為正),fp(實際為負但**為正),tn(實際為負**為負),fn(實際為正但**為負)
通過混淆矩陣我們可以給出各指標的值:
召回率(recall,tnr):**對的正例數佔真正的正例數的比率計算公式:
recall=tp / (tp+fn)
準確率:反映分類器統對整個樣本的判定能力,能將正的判定為正,負的判定為負,計算公式:
accuracy=(tp+tn) / (tp+fp+tn+fn)
精準率:指的是所得數值與真實值之間的精確程度;**正確的正例數佔**為正例總量的比率,計算公式:
precision=tp / (tp+fp)
陰性**值:陰性**值被**準確的比例,計算公式:
npv=tn / (tn+fn)
f值:f-score是precision和recall加權調和平均數,並假設兩者一樣重要,計算公式:
f1 score=(2recallprecision) / (recall+precision)
模型評估之 — roc圖和auc
roc曲線說明:
sensitivity=正確**到的正例數/實際正例總數
1-specificity=正確**到的負例數/實際負例總數
縱座標為sensitivity(true positive rate),橫座標為1-specificity(true negative rate),roc 曲線則是不同閾值下sensitivity和1-specificity的軌跡。
**閾值:**閾值就是乙個分界線,用於判定正負例的,在模型**後我們會給每條**資料進行打分(0**auc(area under the roc curve)**指標在模型評估階段常被用作最重要的評估指標來衡量模型的準確性,橫座標為其中隨機分類的模型auc為0.5,所以模型的auc基線值大於0.5才有意義。
模型的roc曲線越遠離對角線,說明模型效果越好,roc曲線下的區域面積即為auc值,auc值越接近1模型的效果越好。隨著閾值的減小,sensitivity和1-specificity也相應增加,所以roc曲線呈遞增態勢。
roc評估指標之 — lift提公升圖
lift =[tp/(tp+fp)] / [(tp+fn)/(tp+fp+fn+tn)] = pv_plus / pi1,它衡量的是,與不利用模型相比,模型的**能力「變好」了多少,lift(提公升指數)越大,模型的執行效果越好。
不利用模型,我們只能利用「正例的比例是(tp+fn)/(tp+fp+fn+tn)」這個樣本資訊來估計正例的比例(baseline model),而利用模型之後,我們不需要從整個樣本中來挑選正例,只需要從我們**為正例的那個樣本的子集tp+fp中挑選正例,這時**的準確率pv_plus(precision)為tp/(tp+fp)。
lift圖
上圖的縱座標是lift,橫座標是正例集百分比。隨著閾值的減小,更多的客戶就會被歸為正例,也就是**成正例的比例變大。當閾值設得夠大,只有一小部分觀測值會歸為正例,但這一小部分一定是最具有正例特徵的觀測值集合(用前面銀行向客戶推薦信用卡的例子來看,這一部分人群對推薦的反應最為活躍),所以在這個設定下,對應的lift值最大。同樣,當閾值設定得足夠的小,那麼幾乎所有的觀測值都會被歸為正例(佔比幾乎為100%)——這時分類的效果就跟baseline model差不多了,相對應的lift值就接近於1。
roc曲線和lift曲線都能夠評價邏輯回歸模型的效果:類似信用評分的場景,希望能夠盡可能完全地識別出有違約風險的客戶,選擇roc曲線及相應的auc作為指標;
類似資料庫精確營銷的場景,希望能夠通過對全體消費者的分類而得到具有較高響應率的客戶群從而提高投入產出比,選擇lift曲線作為指標;
評估指標 — gain增益圖
gains(增益) 與 lift (提公升)類似:lift 曲線是不同閾值下lift和depth的軌跡,gain曲線則是不同閾值下pv_plus和depth的軌跡,而pv_plus=lift*pi1= tp/tp+fp,所以它們顯而易見的區別就在於縱軸刻度的不同。
增益圖是描述整體精準率的指標。按照模型**出的概率從高到低排列,將每乙個百分位數內的精準率指標標註在圖形區域內,就形成了非累積的增益圖。如果對每乙個百分位及其之前的精準率求和,並將值標註在圖形區域內,則形成累積的增益圖。
模型評估之 — k-s圖
正樣本洛倫茲曲線記為f(x),負樣本洛倫茲曲線記為g(x),k-s曲線實際上是f(x)與g(x)的差值曲線。k-s曲線的最高點(最大值)定義為ks值,ks值越大,模型分值的區分度越好,ks值為0代表是最沒有區分度的隨機模型。準確的來說,k-s是用來度量陽性與陰性分類區分程度的。
k-s圖
其實通常在實際使用的過程中,我們大多數都是通過auc指標和recall召回率來判斷乙個二分類模型的。
解讀 信貸業務風控逾期指標及風控模型評估指標
一 網際網路金融中需要關注的風控逾期指標 1.逾期天數 dpd days past due 自應還日次日起到實還日期間的日期數 舉例 dpdn 表示逾期天數 n天,如dpd30 表逾期天數 30天的合同 2.逾期期數 自應還日次日起到實還日期間的日期數 舉例 正常資產用c表示 mn表示逾期n期 m1...
信貸風控一 風控產品流程
1.註冊環節 重點關注身份偽冒風險 包括虛假身份證明和偽冒他人身份 可以通過人臉識別 身份證 手機號 銀行卡三要素驗證等註冊流程,核實申請者身份。2.登入環節 通過密碼驗證 指紋驗證 手機簡訊驗證碼等方式確認本人操作。3.更改手機號 密碼 銀行卡環節 通過密碼驗證 身份證 手機號 銀行卡三要素驗證等...
金融風控01 風控業務解析
入門資料推薦 補充資料採集會涉及到埋點和爬蟲。反欺詐引擎 模型 無標籤 反欺詐引擎主要包括兩個部分,反欺詐規則 主要 和反欺詐模型。傳統的監督模型較少的使用到,主要涉及到無監督演算法 社交網路演算法 深度學習 異常檢測 知識圖譜。規則引擎 策略 主要通過資料分析 挖掘手段以及一些監督 無監督演算法,...