金融風控 申請評分卡模型 申請評分卡介紹

2021-08-23 12:20:55 字數 3325 閱讀 4103

從這篇博文開始,我將總結金融風控中的另外乙個模型:申請評分卡模型。這篇博文將主要來介紹申請評分卡的一些基本概念。

本篇博文將以以下四個主題來進行介紹說明:

交易對手未能履行約定契約中的義務而造成經濟損失的風險,即受信人不能履行還本付息的責任而使授信人的預期收益與實際收益發生偏離的可能性它是金融風險的主要型別。

信貸場景中的評分卡

本篇博文主要講的是申請評分卡模型。

觀察期表現期

蒐集是否觸發壞樣本定義的時間視窗,通常6個月~1年 

需要對這張圖進行乙個詳細的說明,觀察點不一定是哪一天,可以是一段時間內,在某個時間區間內所有申請人,只要他們觀察期和表現期相同即可。舉例來說,當乙個申請人在2017-7-14號這天來銀行申請貸款,銀行需要用已有的模型對申請人進行乙個申請評分,評估他未來一年(表現期)內違約或者是逾期的概率,然後決定是否放貸。那麼這個已有的模型是什麼時候建立的呢?這裡我們假定觀察期為三年,因為上面是評估一年所以這裡表現期為一年,那麼往前推一年為2016-7-14號左右某個時間區間內作為觀察點,再往前推三年(即觀察期:2013-7-14到2016-7-14),利用這三年所有觀察點內申請人一些資訊建立模型的觀察變數(即特徵),然後再往後推一年(即表現期:2016-7-14到2017-7-14),所有在觀察點內的申請人在這一年時間內的表現情況來定義違約。然後來訓練出乙個模型。對2017-7-14號的申請人進行評分。所以申請評分卡模型有著天然的滯後性,需要不斷的對其模型進行監控。

立項資料準備與預處理 

銀行自有資料和第三方資料

模型構建 

假設模型訓練集的觀察點(即客戶的申請時間段)為2016-01到2016-03,那麼這個模型的觀察期(這裡我們假定為三年)為2013-01到2016-01,模型的表現期(這裡我們假定為一年)為2016-03到2017-03。

模型評估 

對照上面的模型構建的時間來,我們來建立測試集,假定其測試集觀察點(即客戶的申請時間段)為(2017-04),同理可得觀察期,和表現期真實的違約或者逾期與否。這時把模型放在這個測試集上進行測試看看效果如何。這裡需要注意訓練集和測試集上使用者在表現期的表現如何都是基於乙個已經發生的時間段上。 

模型評估的幾個標準在下面會詳細說到。

驗證/審計 

實施人跟上面不一樣,文件撰寫等 

模型部署 

新舊模型替換,評分卡的實時性要求沒那麼高,在銀行通常乙個月更新一次模型。有些諮詢機構可能一天更新一次評分卡模型。

模型監控 

跟蹤模型各項效能是否發生弱化。

ar(accuracy ratio)

衡量分數**能力的指標 ,需要乙個完整的表現期。看看這個模型能不能把壞樣本很好的區分處理。其取值位於-1~1之間。具有滯後性。 

如果我們今天用ar來監控模型的好壞,那麼只能是監控模型在一年(這裡假定表現期為一年)之前的資料上表現的好壞。

先把樣本按分數由低到高排序,x軸是總樣本的累積比例,y軸是壞樣本佔總的壞樣本的累積比例。ar就是等於模型在隨機模型之上的面積除以理想模型在隨機模型之上的面積。計算中可以用梯形近似逼近曲線下面積來計算,ar越高說明模型區分效果越好。

下圖公式中xk,yk代表分數的第k個分位點對應的累積總樣本及相應的壞樣本的比例。設總的壞樣本的比例為bo,令(xk,yk)=(0,0)

衡量分數區分能力的指標。 

把樣本按分數由低到高排序,x軸是總樣本累積比例,y是累積好,壞樣本分別佔總的好,壞樣本的比例。兩條曲線在y軸方向上的相差最大值即ks。ks越大說明模型的區分能力越好。

bad k和good k分別表示為分數累積到第k個分位點的壞樣本個數和好樣本個數,ks計算公式: 

衡量分數穩定性的指標

按分數對人群進行分組,令ri是現在樣本中第i組占總樣本的百分比,bi是一段時間後第i個分組佔總樣本的百分比。psi取值越**明分數的分布隨時間變化越小。

正確有效的評分卡模型中,低分數的實際逾期率應該嚴格大於高分段的實際逾期率。我們將分數從低到高劃分為10組,每組的實際逾期率記做r1,r2,r3,…,r10。對所有的(ri,rj)的組合,如果有ri< rj且i< j,或者ri> rj且i> j,則記做乙個discordant pair,否則記做concordant pair。其計算公式如下:

kendall』s tau越接近1或者等於1,說明逾期率在分數上的單調下降性越明顯,反之說明分數變化與逾期率的變化的一致性得不到保證。

migration matrix

遷移矩陣是衡量分數矩陣的指標,對相同的人群,觀察在相鄰兩次監控日期(一周)分數的遷移變化。遷移矩陣中元素mjk代表上次監控日期分數在第j組中的人群在當前遷移到第k組的概率。實際計算中可把分數平均分成10組,計算這10組之間的遷移矩陣。

個人資訊 : 學歷 性別 收入 

負債資訊 : 在本金融機構或者其他金融機構負債情況 

消費能力 : 商品購買紀錄,出境遊,奢侈品消費 

歷史信用記錄 : 歷史逾期行為 

新興資料 : 人際社交 網路足跡 出行 個人財務

非平衡樣本的定義

在分類問題中,每種類別的出現概率未必均衡 

信用風險:正常使用者遠多於逾期/違約使用者 

流失風險: 留存客戶多於流失客戶

非平衡樣本的隱患

降低對少類樣本的靈敏性

非平衡樣本的解決方案

過取樣欠取樣

smote(合成少數過取樣技術)

金融申請評分卡(1)

目前金融申請評分卡主要使用在一些網際網路金融企業和保險銀行機構,主要用來解決目前金融機構存在的信用風控問題。從最早的有抵押無規則 無抵押有規則 資料模型,形成了目前在風控領域的基本風控脈絡 現今主要採用基於資料驅動建立的風控模型,主要就是目前應用最廣泛最多的評分卡模型,評分卡模型主要由分為四種,即 ...

金融申請評分卡 目標變數界定

一 目標變數是什麼?目標變數就是假定申請客戶的好壞,邏輯回歸公式裡的y,先來看下邏輯回歸公式 y 11 e zy 1 1 e zz a 1x1 a2x2 a nxn b z a 1x1 a2x2 a nxn b其中 y 11 e zy 1 1 e z稱為sigmoid函式,它的函式影象如下,我們可以...

金融申請評分卡 資料準備 缺失值資料清洗

今天我們來聊聊資料準備中的資料清洗。其實資料清洗這四個字對於常常做資料分析建模的同學們一定不陌生,不管在實際工作中有沒有真正做清洗,我們都會先把這個口號喊出來,資料清洗這塊其實我也一直不太願意拿出來說,因為這種活實在太結合業務理解了,而且還見仁見智,並不是簡簡單單的三步 缺失值填補 異常值刪除 錯誤...