在評分卡模型的開發中,連續型變數需要進行分箱操作才能放入模型當中。
分箱操作的定義如下:
1、等距分箱法
import numpy as np
import pandas as pd
from pandas import dataframe
np.random.seed(1)
#隨機數生成器種子
income_list = np.random.randint(3,
50, size=
100)
print
(income_list)
k =5
# 設定分為5個區間
#等距分箱法
income_cut = pd.cut(income_list, k)
print
(type
(income_cut))#
print
(income_cut)
print
(pd.value_counts(income_cut)
)# 統計每個區間人數
df = dataframe(
)df[
'income'
]= income_list
df['name']=
[pd.util.testing.rands(3)
for i in
range
(len
(income_list))]
#util.testing.rands()實現的乙個生成隨機字串的方法
print
(df)
print
(pd.cut(df[
'income'
], k, labels=
range
(k))
)# 使用cut方法進行分箱
df['categories'
]= pd.cut(df[
'income'
], k, labels=
range
(k))
print
(df)
2、kmeans分箱法
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import kmeans
#先在4個中心點附近隨機產生一堆資料
real_center =[(
1,1)
,(1,
2),(
2,2)
,(2,
1)]point_number =
50points_x =
points_y =
for center in real_center:
offset_x, offset_y = np.random.randn(point_number)
*0.3
, np.random.randn(point_number)
*0.25
#random.randn以給定的形狀建立乙個陣列,陣列元素來符合標準正態分佈
x_val, y_val = center[0]
+ offset_x, center[1]
+ offset_y
points_x = np.concatenate(points_x)
#concatenate陣列拼接函式
points_y = np.concatenate(points_y)
plt.plot(points_x, points_y,
'b*'
)plt.show(
)points = np.dstack(
(points_x, points_y))[
0]#深度組合,dstack沿著縱軸方向組合
kmodel = kmeans(n_clusters =4)
kmodel.fit(points)
#訓練模型
print
(kmodel.cluster_centers_)
信貸風控一 風控產品流程
1.註冊環節 重點關注身份偽冒風險 包括虛假身份證明和偽冒他人身份 可以通過人臉識別 身份證 手機號 銀行卡三要素驗證等註冊流程,核實申請者身份。2.登入環節 通過密碼驗證 指紋驗證 手機簡訊驗證碼等方式確認本人操作。3.更改手機號 密碼 銀行卡環節 通過密碼驗證 身份證 手機號 銀行卡三要素驗證等...
風控建模整體流程
1.確定建模目的 在信貸領域中建立風控模型是為了找出可能會逾期的客戶,根據逾期的可能性和資金的鬆緊程度選擇是否放貸。在支付領域建立風控模型是為了找出可能存在非法經營的商戶,保證商戶沒有違法經營。2.確定好壞樣本邏輯 在信貸領域中逾期大於x期 不同公司取值不同 的客戶定義為壞客戶 1 從未逾期的客戶定...
解讀 信貸業務風控逾期指標及風控模型評估指標
一 網際網路金融中需要關注的風控逾期指標 1.逾期天數 dpd days past due 自應還日次日起到實還日期間的日期數 舉例 dpdn 表示逾期天數 n天,如dpd30 表逾期天數 30天的合同 2.逾期期數 自應還日次日起到實還日期間的日期數 舉例 正常資產用c表示 mn表示逾期n期 m1...