賽題以金融風控中的個人信貸為背景,要求選手根據貸款申請人的資料資訊**其是否有違約的可能,以此判斷是否通過此項貸款,這是乙個典型的分類問題。
資料報括80w訓練集和40w測試集,包含47個變數,其中15個為匿名變數。
提交結果為每個測試樣本是1的概率,也就是y為1的概率。評價方法為auc評估模型效果(越大越好)。
對於金融風控**類常見的評估指標如下:
公式如下:ks不同代表的不同情況,一般情況ks值越大,模型的區分能力越強,但是也不是越大模型效果就越好,如果ks過大,模型可能存在異常,所以當ks值過高可能需要檢查模型是否過擬合。以下為ks值對應的模型情況,但此對應不是唯一的,只代表大致趨勢。k s = m a x ( t p r − f p r ) ks=max(tpr-fpr)
ks=max(tpr−fpr)
ks(%)
好壞區分能力
20以下
不建議採用
20-40
較好41-50
良好51-60
很強61-75
非常強75以上
過於高,疑似存在問題
import pandas as pd
train = pd.
read_csv
('train.csv'
)testa = pd.
read_csv
('testa.csv'
)
print
('train data shape:'
, train.shape)
print
('testa data shape:'
, testa.shape)
train data shape:
(800000,47
)testa data shape:
(200000,48
)
train.
head
()
金融風控學習task1
其中有四種情況 1 若乙個例項是正類,並且被 為正類,即為真正類tp true positive 2 若乙個例項是正類,但是被 為負類,即為假負類fn false negative 3 若乙個例項是負類,但是被 為正類,即為假正類fp false positive 4 若乙個例項是負類,並且被 為負...
天池 金融風控資料探勘task1
1 混淆矩陣 2 準確率 accuracy 精確率 precision 召回率 recall 3 f1指數 4 p r曲線 5 auc 包圍的面積 6 roc 真正例率和假正例率作為橫縱軸 1 ks kolmogorov smirnov k s曲線與roc曲線類似,不同在於 roc曲線將真正例率和假...
Task1 賽題理解
賽題是cv入門級賽題,通過街景字元識別來熟悉cv建模思路和競賽流程。目標為識別街景中的字元。資料集樣本展示如下 評價指標如下 主要考慮兩種思路 傳統cv思路 先將影象二值化處理,然後做傾斜校正,根據投影做字元切割,根據0 9的字元的特徵點與標準字元匹配來進行識別 深度學習思路 本題本質上是分類問題,...