Task 1 金融風控 賽題理解

2021-10-09 11:54:01 字數 1080 閱讀 1978

賽題以金融風控中的個人信貸為背景,要求選手根據貸款申請人的資料資訊**其是否有違約的可能,以此判斷是否通過此項貸款,這是乙個典型的分類問題。

資料報括80w訓練集和40w測試集,包含47個變數,其中15個為匿名變數。

提交結果為每個測試樣本是1的概率,也就是y為1的概率。評價方法為auc評估模型效果(越大越好)。

對於金融風控**類常見的評估指標如下:

公式如下:

k s = m a x ( t p r − f p r ) ks=max(tpr-fpr)

ks=max(tpr−fpr)

ks不同代表的不同情況,一般情況ks值越大,模型的區分能力越強,但是也不是越大模型效果就越好,如果ks過大,模型可能存在異常,所以當ks值過高可能需要檢查模型是否過擬合。以下為ks值對應的模型情況,但此對應不是唯一的,只代表大致趨勢。

ks(%)

好壞區分能力

20以下

不建議採用

20-40

較好41-50

良好51-60

很強61-75

非常強75以上

過於高,疑似存在問題

import pandas as pd
train = pd.

read_csv

('train.csv'

)testa = pd.

read_csv

('testa.csv'

)

print

('train data shape:'

, train.shape)

print

('testa data shape:'

, testa.shape)

train data shape:

(800000,47

)testa data shape:

(200000,48

)

train.

head

()

金融風控學習task1

其中有四種情況 1 若乙個例項是正類,並且被 為正類,即為真正類tp true positive 2 若乙個例項是正類,但是被 為負類,即為假負類fn false negative 3 若乙個例項是負類,但是被 為正類,即為假正類fp false positive 4 若乙個例項是負類,並且被 為負...

天池 金融風控資料探勘task1

1 混淆矩陣 2 準確率 accuracy 精確率 precision 召回率 recall 3 f1指數 4 p r曲線 5 auc 包圍的面積 6 roc 真正例率和假正例率作為橫縱軸 1 ks kolmogorov smirnov k s曲線與roc曲線類似,不同在於 roc曲線將真正例率和假...

Task1 賽題理解

賽題是cv入門級賽題,通過街景字元識別來熟悉cv建模思路和競賽流程。目標為識別街景中的字元。資料集樣本展示如下 評價指標如下 主要考慮兩種思路 傳統cv思路 先將影象二值化處理,然後做傾斜校正,根據投影做字元切割,根據0 9的字元的特徵點與標準字元匹配來進行識別 深度學習思路 本題本質上是分類問題,...