變數含義
讀入資料
x
ndata
0)mpaichu = n-m #排除項
data17)k
zhongjian
#定義y
y[which(data1$overdue==0)]=0
y[which(data1$overdue>7)]=1
m01m02
m03m06
m07m10
m11m12
m13m16
m17m18
m20m21
m22m23
m24m25
m26m27
m28m29
m35m37
m38m40
m44m45
m46m47m48
datanew
#包的準備
install.packages('caret')
install.packages('rlang')
library(caret)
install.packages(c("vim","mice"))
matrixplot(datanew)
library(vim)
library(mice)
install.packages('tibble')
library(ggplot2)
抽樣:
library(caret)
train1
train
test
評估變數的分布連續變數-直方圖
名義/順序變數-餅圖,條形圖
先看一下近6個月最大單月持卡銀行數的分布情況
大部分都在12張以內,銀行卡持卡書最多的是5張
最後再來看一下違約人數在總人數的佔比
壞使用者很少,只佔0.8%左右
#datanew$m07的分布情況-直方圖
require(caret)
ggplot(datanew, aes(x = m07,y = ..count..,)) + geom_histogram(fill = "blue", colour = "grey60", size = 0.2,alpha = 0.2,binwidth = 3)
#m02的分布
ggplot(datanew, aes(x = m02,y = ..count..,)) + geom_histogram(fill = "blue", colour = "grey60", size = 0.2,alpha = 0.2,binwidth = 5)
#y的分布
ggplot(datanew, aes(x =datanew$y,y = ..count..,)) + geom_histogram(fill = "blue", colour = "grey60" , alpha = 0.2,stat="count")
缺失值處理缺失值處理
#缺失值分析
利用matrixplot函式對缺失值部分進行視覺化展示,上圖中淺色表示值小,深色表示值大,而預設缺失值為紅色。具體確實情況可以見下表,m45,m46列共有缺失值1個,m47有113個。
對於缺失值的處理方法非常多,例如基於聚類的方法,基於回歸的方法,基於均值的方法,其中最簡單的方法是直接移除,但是在本文中因為缺失值所佔比例較高,直接移除會損失大量觀測,因此並不是最合適的方法。在這裡,我們使用knn方法對缺失值進行填補。
python評分卡模型 簡書 評分卡模型
信用評分卡分類 a卡 申請評分卡,側重貸前,在客戶獲取期,建立信用風險評分,客戶帶來違約風險的概率大小 b卡 行為評分卡,側重貸中,在客戶申請處理期,建立申請風險評分模型,客戶開戶後一定時期內違約拖欠的風險概率,有效排除了信用不良客戶和非目標客戶的申請 c卡 催收評分卡,側重貸後,在帳戶管理期,建立...
金融風控 申請評分卡模型 申請評分卡介紹
從這篇博文開始,我將總結金融風控中的另外乙個模型 申請評分卡模型。這篇博文將主要來介紹申請評分卡的一些基本概念。本篇博文將以以下四個主題來進行介紹說明 交易對手未能履行約定契約中的義務而造成經濟損失的風險,即受信人不能履行還本付息的責任而使授信人的預期收益與實際收益發生偏離的可能性它是金融風險的主要...
評分卡模型開發 定量指標篩選
library informationvalue library klar data germancredit train kfold sample nrow germancredit 800,replace f train kfolddata germancredit train kfold,te...