1.信用評分場景
貸前審核申請評分:運營商資訊、電商資訊、個人資訊、央行徵信資訊
貸後監控行為評分:還款行為、消費行為
2.開發流程
確定場景(貸款前還是貸款後)、人群、產品
資料準備與預處理:選取資料、清洗資料、特徵工程
模型構建與引數估計
模型評估和效能測試
模型驗證與審計:驗證建模的合理性(不能和開發人員同一批人)
模型上線
持續監控並調優
3.開發必備模型
邏輯回歸、決策樹(對資料質量的要求低、對異常值、對缺失值也可以處理)
組合模型(怎麼整合模型?優點是不容易過擬合、準確度高)
4.特徵構造
從已有的字段中提煉出有價值的、可用的資訊(基於對業務的理解,找到對因變數有影響的所有變數)
特徵可用嗎?獲取難度、覆蓋率、準確率
特徵的構造方法
過去一段時間-----時間切片-----太短不穩定、太長效果不好
5.資料集中度:一批訓練樣本中,學歷為本科的樣本樣本佔全部樣本的90%。
此時分情況討論:
本科和非本科,因變數之間沒有顯著差別,直接把本科這個字段刪除
本科和非本科,少數值的樣本中壞樣本率更低,比如非本科的群體壞樣本更低。
如果這個字段劃分出的群體,壞樣本率更高,那這個地段就是好的字段
6.資料預處理
6.1資料缺失(兩類缺失情況欄位和樣本、三種處理方式捨棄補缺視為特殊值、兩種資料型別連續和離散)
字段缺失、樣本缺失
處理方法:
捨棄補缺(均值[完全隨機缺失]、眾數和抽樣法[分類變數]、回歸法[隨機缺失,和某個變數有相關性]、插值法[時間序列變化])
視為特殊值:缺失樣本的壞樣本率更高,視為一種特殊值,作為乙個特殊的分箱
6.2異常值(lr不能容忍異常值、缺失值、多重共線性)
先判斷、再處理
判斷:分位點法、聚類法
處理:刪除、用正常值替換、但有時異常值非常大的樣本是需要警惕的,例如徵信查詢次數過大
6.3格式統一
6.4檢視多重共線性、可以計算相關係數、vif值、分類變數如何檢視相關性?
7.特徵分箱
邏輯回歸特徵必須是數值型的,分類變數要進行編碼。
為了使評分模型的穩定性,需要分箱。收入由6000漲到6200,這時的信用評分最好不要發生變化
如果使用啞變數,會導致變數膨脹。
取值個數較多的類別型變數,也可以進行合併(如北上廣合併為乙個)
分箱要保證有序性:比如學歷。
每個箱子的佔比不要相差太大,一般不要低於5%
分箱要體現目標變數的趨勢,如單調、u型等
分箱的個數適中。7個以內
分箱的優點:穩定、便於缺失值和異常值的處理、解決了尺度問題(如收入的單位是萬、還款率是%)
模型代入之前要做單變數和多變數的分析
分箱方法:
有監督:卡方分箱法、決策樹分箱(利用了目標變數的資訊)
無監督:等距、等頻、聚類
卡方分箱:就是做卡方檢驗
chimerge分箱法:
出現非單調性時:
1.繼續合併箱子,縮小箱子數量
2.解決了單調性問題後,判斷分箱的均勻性(16.)
8.woe編碼
woe就是本箱的log odds和全體的log odds的差值,即每一箱中的相對全體的log odds的超出值
每個箱子都必須同時包含好壞樣本,才能使woe值有意義
對於多類別標籤的情況,多分類情況時無法計算woe值
9.特徵資訊值 information value(隨機森林、gbdt模型等也可以幫助判斷變數的主要性)
固定第乙個變數,刪除相關性達到0.7-0.9的變數
vif=10是乙個寬鬆的標準,如果高於10,一定是存在多重共線性的
10.邏輯回歸引數估計:mle和損失函式
似然函式:每個樣本對應的概率密度函式 進行 相乘
讓似然函式最大化,得到的樣本是概率最大的樣本
logit模型極大似然估計無法得到解析解,使用數值求解的方法,例如常用的梯度上公升法。
lr優點:可解釋性高、軟分類給出的概率
lr不足:對變數要求高,需要對非數值變數進行編碼、需要對缺失值做處理、對異常值做處理、變數尺度差異大時需要進行歸一化、不能忍受多重共線性、需要進行變數挑選或者加上正則項
11.基於lr模型的信用風險評分
入模的變數要求:
變數間不存在較強的線性相關性和多重共線性
變數具有顯著性(要檢驗單個變數的p值)
變數要具有合理的業務含義(係數正負號要合理)
信用評分模型
邏輯回歸模型 廣泛應用在申請評分 行為評分 市場響應 客戶流失等建模領域。決策樹模型 往往被用來做催收評分和客戶盈利模型。神經網路模型 用來防止申請和交易欺詐。信用評分的主要目的是估計消費者的信用情況 正常或違約 具體做法是根據酷虎的歷史資訊資料,利用合適的數學統計模型,得到消費者違約的概率值。客戶...
關於Fico信用評分
著作權歸作者所有。fico信用分是由美國個人消費信用評估公司開發出的一種個人信用評級法,已經得到社會廣泛接受。fico sap 的財務分兩塊,一塊是fi部分,一塊是co部分。fi是對外的財務會計,co是對內的成本會計。簡單的說就是乙個對外出報表,乙個是用於內部的管理分析。fico信用分是最常用的一種...
信用評分模型11111111
邏輯回歸模型 廣泛應用在申請評分 行為評分 市場響應 客戶流失等建模領域。決策樹模型 往往被用來做催收評分和客戶盈利模型。神經網路模型 用來防止申請和交易欺詐。信用評分的主要目的是估計消費者的信用情況 正常或違約 具體做法是根據酷虎的歷史資訊資料,利用合適的數學統計模型,得到消費者違約的概率值。客戶...