什麼是評分卡(信貸場景中)
以分數的形式來衡量風險機率的一種手段
對未來一段時間內違約/逾期/失聯概率的**
通常評分越高越安全
根據使用場景分為反欺詐評分卡、申請評分卡、行為評分卡、催收評分卡
為什麼要開發評分卡
評分卡的特性
評分卡開發的常用模型
基於邏輯回歸的評分卡理論依據
單變數:歸一化,離散化,缺失值處理
這裡講一種行業經常用的基於iv值進行篩選的方式。
首先引入概念和公式。
iv的全稱是information value,中文意思是資訊價值,或者資訊量。
求iv值得先求woe值,這裡又引入woe的概念。
woe的全稱是「weight of evidence」,即證據權重。
首先把變數分組,然後對於每個組i,對於第i組有:
woe反映的是在自變數每個分組下違約使用者對正常使用者佔比和總體中違約使用者對正常使用者佔比之間的差異;從而可以直觀的認為woe蘊含了自變數取值對於目標變數(違約概率)的影響
而iv值得公式如下:
我們可以看到iv值其實是woe值加權求和。這個加權主要是消除掉各分組中數量差異帶來的誤差。
比如如果只用woe的絕對值求和,如果一些分組中,a組數量很小,b組數量很大(顯然這樣的分組不合理),這是b的woe值就很小,a組很大,求和的woe也不會小,顯然這樣不合理。比如:
變數離散化:
評分卡模型用的是logistics,基本上都需要變數離散化後,效果才比較好。
離散化一般有幾種方式:合併和切割。
合併:先把變數分為n份,然後兩兩合併,看是否滿足停止合併條件。
切割:先把變數一分為二,看切割前後是否滿足某個條件,滿足則再切割。
而所謂的條件,一般有兩種,卡方檢驗,資訊增益。
ks檢驗
ks檢驗主要是驗證模型對違約物件的區分能力,通常是在模型**全體信用樣本的信用評分後,將樣本按違約率與非違約率分成兩部分,然後用ks統計量來檢驗兩組樣本信用評分是否具有顯著性差異。
橫軸是總體累積率,縱軸是各樣本累積率
藍色是壞客戶的佔比,紅色是好客戶的佔比,兩者都會隨著橫軸總體累積率的變化而變。但兩者差距最大時,為ks值。
如在60%的時候ks值取得最大,此時將模型裡面算出的p值(odds)排序,往下取60%時的p值,將60時的p值作為新的閾值,效果往往會有所提公升。
模型檢驗
1.ks值圖
上面說過,此處不再敘述。
2.roc曲線
召喚經典級交叉矩陣
(2)false positive rate,簡稱為fpr,計算公式為fpr=fp/(fp+tn)
(3)precision=tp/(tp+fp),或2tp/((tp+fn)+(tp+fp))。
(4)真負類率(true negative rate,tnr),也稱為specificity,計算公式為tnr=tn/ (fp+ tn) = 1 - fpr。
roc曲線及auc係數主要用來檢驗模型對客戶進行正確排序的能力。roc曲線描述了在一定累計好客戶比例下的累計壞客戶的比例,模型的分別能力越強,roc曲線越往左上角靠近。auc係數表示roc曲線下方的面積。auc係數越高,模型的風險區分能力越強。
3.lift曲線
橫座標depth為**成正例的比例
在模型中,隨著改變閾值p,命中率會隨之改變,lift曲線中橫座標就是改變閾值p下正比例的變化,縱座標是lift提公升度。比如命中率是80%,原來好壞比是1.1,那樣就提高了1.6。
一般來說,在depth為1前,lift越大於1越好。總結
在實際建模中需要重複特徵工程、變數離散化、ks檢驗等步驟,不斷優化以達到更優效果。
金融風控 申請評分卡模型 申請評分卡介紹
從這篇博文開始,我將總結金融風控中的另外乙個模型 申請評分卡模型。這篇博文將主要來介紹申請評分卡的一些基本概念。本篇博文將以以下四個主題來進行介紹說明 交易對手未能履行約定契約中的義務而造成經濟損失的風險,即受信人不能履行還本付息的責任而使授信人的預期收益與實際收益發生偏離的可能性它是金融風險的主要...
資料化風控 信用評分卡
風險存在於申貸時 審批後。早起的風險管理以人工為主,由於風險因子眾多彼此互動極為複雜 一 人工成本高 二 無法保持一致,大規模作業 所以減少人為主觀判斷,減輕風控人員負擔。目前最普遍的工具為信用評分卡,應用範圍包括進件 貸後管理及催收。篩選高風險客戶,減少損失發生,找到優質客戶群,發掘潛在機會。依發...
金融風控實戰之 Python 評分卡建模
當下金融科技是機器學習應用最火的業務場景之一,風控演算法工程師需求旺盛,既能深耕 風控業務 外功,又能兼修 機器學習 內功的演算法工程師市場稀缺。互利網上較多風控建模教程均採用國外陳舊資料集,早已脫離國內當前實際信貸業務,建模意義不大。因此,本 chat 不採用 lendingclub german...