基於決策樹的貸款審批模型
一、背景描述
銀行信貸業務是銀行最基本、最重要的資產業務,通過發放銀行貸款收回本金和利息,扣除成本後獲得利潤。銀行為了獲得更大的利潤,對每一位顧客的資訊進行分類,然後針對不同的顧客採用不同的方案。
銀行每天要收到大量貸款申請,其中夾雜著大量不具備貸款資格的申請,為緩解審批人員的工作量,可以根據申請人資料,制定乙個模型自動過濾高拖欠貸款概率的資格申請表。
二、資料分析
2.1.資料閱讀
下表為銀行貸款發放後是否拖欠的部分使用者資訊,其中因變數為「拖欠貸款」,自變數有「年齡」、「收入級別」、「信用卡樹」、「學歷」、「車貸數量」,計畫通過決策樹建立貸款審批模型,自動過濾高拖欠貸款概率使用者。
拖欠貨款 年齡
收入級別
信用卡數 學歷
車貸數量 否
50.53 中
5張以上 高中
2次以上 否
27.02 高
少於5張 高中
無或1次 否
28.1 低
少於5張 高中
無或1次 是
24.04 低
5張以上 高中
2次以上 是
25.72 中
5張以上 大學
2次以上 否
29.53 高
少於5張 高中
2次以上 否
28.02 高
5張以上 高中
2次以上 是
26.81 中
5張以上 大學
2次以上 否
42.44 高
5張以上 高中
無或1次 否
35.03 中
5張以上 高中
無或1次 是
29.05 低
5張以上 大學
2次以上
表1 貸款拖欠與否使用者資訊
2.2.決策樹根節點擊擇
優先選擇哪個屬性進行決策樹的生長,並不是隨機選擇的,而是要根據不同的決策樹通過不同的評估效果決定。
1)基於資訊增益的根節點擊擇(針對c4.5/5.0等決策樹)
從表1可知,根節點的選擇有「年齡」、「收入級別」、「信用卡數」、「學歷」、「車貸數量」,以「收入級別」為例計算資訊增益。
圖1 通過「收入級別」劃分
假定根節點屬性u,包括拖欠貨款和不拖欠貨款的人數分別為1020和1444個物件,則根節點的熵:
根節點按照「收入級別」劃分後可得3個子節點v1(低)、v2(中)、v3(高),各子節點的熵:
按照「收入級別」屬性劃分後的條件熵:
因此可計算出按「收入級別」屬性劃分後的資訊增益:
同理計算出其它屬性劃分後的資訊增益:
gains(u,收入級別) = 0.978 – 0.766 = 0.211
gains(u,年齡) =0.978 – 0.890 = 0.087
gains(u,信用卡數) = 0.978 – 0.843 = 0.134
gains(u,學歷) = 0.978 – 0.977 = 0.001
gains(u,車貸數量) = 0.978 – 0.896 = 0.081
根據計算結果可見,按「收入級別」屬性劃分資訊增益最大。
2)基於卡方檢驗的根節點擊擇(針對chaid決策樹)
從表1可知,根節點的選擇有「年齡」、「收入級別」、「信用卡數」、「學歷」、「車貸數量」,根據「r*c」表通用公式:
k^2 = n(∑a^2/nrnc -1)
以及四格表通用公式:
k^2 = n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d)
計算各屬性的卡方差如下:
收入級別 = 662.456
信用卡數 = 415.996
年齡 = 290.065
車貸數量 = 265.963
年齡 = 0.098
根據計算結果可見,按「收入級別」屬性劃分卡方差最大。
三、模型建立
將資料集分為70%的訓練集以及30%的校驗集,分別用於模型的建立以及校驗。
3.1.決策樹模型的建立
1)決策樹
2)模型彙總
模型彙總指定
增長方法
chaid
因變數拖欠貨款
自變數年齡, 收入級別, 信用卡數, 學歷, 車貸數量 驗證
無最大樹深度 3
父節點中的最小個案
100子節點中的最小個案 50
結果自變數已包括
收入級別, 信用卡數, 年齡
節點數 22
終端節點數 13
深度 3
增長方法採用chaid,自變數採用「收入級別」、「信用卡數」、「年齡」。
3.2.決策樹模型校驗
將訓練集生成的模型納入校驗集檢測:
分類
已觀測
已** 否
是 正確百分比 否
363 62
85.4% 是
84212
71.6%
總計百分比
81.2%
77.3%
79.8%
3.3.決策樹模型應用
從決策樹16號節點分析:收入級別低、信用卡5張以上、年齡<37的人群為高拖欠貸款概率人群,此外也可直接將人員資訊通過決策樹直接輸入拖欠貸款概率。
四、總結
本文通過建立貸款審批模型,當新使用者申請貸款時,貸款審批人員可迅速判斷拖欠貸款概率,節省分析時間,減少運營風險。
決策樹模型
決策樹採用樹結構來進行決策的,可以認為是if then規則集合,也可以認為是對特徵空間劃分,每個子空間對應乙個輸出。其優點簡單,快速,可解釋性強。決策樹通常包含三部分 特徵選擇,決策樹生成,決策樹剪枝。資訊增益,資訊增益比,基尼指數是常用的特徵選擇準則 資訊熵 表示變數的不確定程度,資訊熵越大不確定...
決策樹模型
前言 決策樹生成模型三要素 一般而言,一顆 完全生長 的決策樹包含 特徵選擇 決策樹構建 剪枝三個過程。決策樹是一種啟發式貪心演算法,每次選取的分割資料的特徵是當前的最佳選擇,並不關心是否達到最優。一 特徵選擇 1.1 熵 樣本集合 純度 不確定性 穩定性的指標 熵越大,樣本的不確定性就越大 在決策...
決策樹模型
決策樹可以簡單的理解為根據特徵的取值而最終分成不同的類,也可以理解為簡單的if then的規則集合 樹嘛 那麼怎麼樣選擇節點是乙個很有技術的問題。為什麼呢,因為如果你的中間節點擊的不錯是不是就能夠很容易的將決策樹的各個節點很容易的分清楚了 說白了,你選的樹分叉的地方越有區分度 分類越多越好你乙個特徵...