評分卡的建立方法 分箱 WOE IV 分值分配

2021-08-25 10:57:15 字數 3283 閱讀 4393

本文主要講「變數選擇」「模型開發」「評分卡建立和刻度」

首先,需要確定變數之間是否存在共線性,若存在高度相關性,只需儲存最穩定、**能力最高的那個。需要通過 vif(variance inflation factor)也就是 方差膨脹因子進行檢驗。

變數分為連續變數和分類變數。在評分卡建模中,變數分箱(binning)是對連續變數離散化(discretization)的一種稱呼。要將logistic模型轉換為標準評分卡的形式,這一環節是必須完成的。信用評分卡開發中一般有常用的等距分段、等深分段、最優分段。

單因子分析,用來檢測各變數的**強度,方法為woe、iv;

woe(weight of evidence)字面意思證據權重,對分箱後的每組進行。假設good為好客戶(未違約),bad為壞客戶(違約)。

woei=ln(pgoodpbad)=ln(good佔比bad佔比)=ln(#goodi#goodt#badi#badt)

#good(i)表示每組中標籤為good的數量,#good(t)為good的總數量;bad相同。

iv(information value)衡量的是某乙個變數的資訊量,公式如下:

iv=∑i=1n(good佔比−bad佔比)∗woei

n為分組的組數;

iv可用來表示乙個變數的**能力。

iv**能力

<0.03

無**能力

0.03~0.09

低0.1~0.29

中0.3~0.49

=0.5

極高根據iv值來調整分箱結構並重新計算woe和iv,直到iv達到最大值,此時的分箱效果最好。

組間差異大

組內差異小

每組佔比不低於5%

必須有好、壞兩種分類

例如按年齡分組,一般進行分箱,我們都喜歡按照少年、青年、中年、老年幾大類進行分組,但效果真的不一定好:

agegood

badwoe

<18

5040

ln(50/33040/220)=−0.182321556793955

18~30

10060

ln(100/33060/220)=0.105360515657826

30~60

10080

ln(100/33080/220)=−0.182321556793955

>60

8040

ln(80/33040/220)=0.287682072451781

all330

220

iv=(50330−40220)∗ln(50/33040/220)+(100330−60220)∗ln(100/33060/220)+(100330−80220)∗ln(100/33080/220)+(80330−40220)∗ln(80/33040/220)=0.0372027069982804

根據iv值可以看出,**能力低,建議重新調整分箱。

先進行資料劃分,一般70%訓練集、30%測試集。訓練集用於訓練模型,測試集用於檢測訓練後的模型。

一般採用logistic regression建立模型,訓練模型。將建好的模型對待測樣本進行**。

odds為good使用者概率(p)與bad使用者概率(1-p)的比值。

odds=p1−p

評分卡設定的分值刻度可以通過將分值表示為比率對數的現行表示式來定義。公式如下:

score總=a+b∗ln(odds)

注:若odds是 壞客戶概率好客戶概率,odds應取倒數,再經過ln轉換則b前面是減號。所以有的地方此公式b前為負號。

設定比率為θ0

(也就是odds)的特定點分值為p0,比率為2θ0的點的分值為p0+pdo

。帶入上面公式可得到:

{p0p0+pdo=a+bln(θ0)=a+bln(2θ0)

求解上述公式,可以得到a、b值:

{ba=pdoln2=p0−bln(θ0)

p0和 pdo 的值都是已知常數,可計算出a、b值帶入score公式,得到不同θ0下的評分卡分值。

而θ0也就是odds,可由logistic regression模型評估的結果 p

計算得到。

到這個地方,乙個樣本的評分結果已經計算得到。

在實際的應用中,我們會計算出每個變數的各分箱對應的分值。新使用者產生時,對應到每個分箱的值,將這些值相加,最後加上初始基礎分,得到最終的結果。

如果使用者某個變數發生改變,由乙個分箱變成另乙個,只需將更新後所在分箱的值做替換,再重新相加即可得到新的總分。

我們都知道,假設模型結果為p,根據logistic regression計算公式有:

p=11+e−θtx

經過轉換得到

ln(p1−p)=θtx

所以score總=a+b∗(θtx)=a+b∗(w0+w1x1+···+wnxn)=(a+b∗w0)+b∗w1x1+···+b∗wnxn

這裡w1,w2,...,wn是logistic regression中的x1,x2,...,xn的係數。

(a+b∗w0)為基礎分數,b∗w1x1,···,b∗wnxn為每個變數對應分配到的分數。

之前步驟中每個變數都有進行分箱操作,分為若干類。所以下一步的話,把每個變數對應的分數,分別乘以變數中每個分箱的woe,得到每個分箱的評分結果。

變數分箱類別

分值基礎分數

-(a+b∗w0)x11

2…i(b∗w1)∗woe11

(b∗w1)∗woe12

···(b∗w1)∗woe1ix21

2…j(b∗w2)∗woe21

(b∗w2)∗woe22

···(b∗w2)∗woe2j

······

···xn12

…k(b∗wn)∗woen1

(b∗wn)∗woen2

···(b∗wn)∗woenk

以上步驟都完成後,假如新產生乙個使用者,我們只需將此使用者每個變數對應到各分箱中得到其對應的woe值,再根據上面的公式計算出這個樣本在每個變數下的分數。最後將所有變數對應的分數相加,即為最終評分結果。

最後說一下,特徵選擇方面,並不是維度越多越好。乙個評分卡中,一般不超過15個維度。可根據logistic regression模型係數來確定每個變數的權重,保留權重高的變數。相關係數大於0.7的變數一般只保留乙個。

申請評分卡(A卡)的開發過程(1)

本篇文章上接 申請評分卡簡介 有需要的童鞋可以參考下 下面介紹下a卡的開發步驟。1 立項 場景 營銷 信貸領域 物件 個人 賬戶 公司 目的 程度決策 流失預警 反欺詐等等 2 資料的準備與預處理 賬戶,客戶,內部外部資料 3 建模的構建 邏輯回歸vs機器學習,單一模型vs 整合模型 4 模型評估 ...

評分卡模型的監測和報告

cdot 基於sas的開發與實施 評分卡報告分為兩類 評分卡在企業中的作用,可以用來回答以下問題 如何將評分卡與企業的總體經營戰略相結合 如何衡量客戶行為的變化並在信貸策略中對其原因進行說明 評分卡是否執行良好,何時需要對評分卡進行公升級或重建。穩定性報告時用於評估和檢測評分卡表現的。目的是生成乙個...

基於邏輯回歸模型的評分卡構建

lr模型對進入模型變數的要求 1 變數間不存在較強的線性相關性和多重共線性 2 變數具有顯著性 3 變數具有合理的業務含義,符合業務邏輯 第1點,可以使用單變數分析和多變數分析得到一定的約束,但是未必充分 第2點,從係數的p值進行檢驗 第3點,從係數的符號進行檢驗。變數的顯著性 為了獲取與目標變數有...