一般而言,對於資料在比賽介面都有對應的資料概況介紹(匿名特徵除外),說明列的性質特徵。了解列的性質會有助於我們對於資料的理解和後續分析。
train.csv
id 為貸款清單分配的唯一信用證標識
loanamnt 貸款金額
term 貸款期限(year)
interestrate 貸款利率
installment 分期付款金額
grade 貸款等級
subgrade 貸款等級之子級
employmenttitle就業職稱
employmentlength 就業年限(年)
homeownership 借款人在登記時提供的房屋所有權狀況
annualincome 年收入
verificationstatus 驗證狀態
issuedate 貸款發放的月份
purpose 借款人在貸款申請時的貸款用途類別
regioncode 地區編碼
dti 債務收入比
delinquency_2years 借款人過去2年信用檔案中逾期30天以上的違約事件數
ficorangelow 借款人在貸款發放時的fico所屬的下限範圍
ficorangehigh 借款人在貸款發放時的fico所屬的上限範圍
openacc 借款人信用檔案中未結信用額度的數量
pubrec 貶損公共記錄的數量
pubrecbankruptcies 公開記錄清除的數量
revolbal 信貸周轉餘額合計
revolutil 迴圈額度利用率,或借款人使用的相對於所有可用迴圈信貸的信貸金額
totalacc 借款人信用檔案中當前的信用額度總數
initialliststatus 貸款的初始列表狀態
earliescreditline 借款人最早報告的信用額度開立的月份
title 借款人提供的貸款名稱
policycode 公開可用的策略**=1新產品不公開可用的策略**=2
n系列匿名特徵 匿名特徵n0-n14,為一些貸款人行為計數特徵的處理
競賽採用auc作為評價指標。auc(area under curve)被定義為 roc曲線 下與座標軸圍成的面積。
1、混淆矩陣(confuse matrix)
(1)若乙個例項是正類,並且被**為正類,即為真正類tp(true positive )
(2)若乙個例項是正類,但是被**為負類,即為假負類fn(false negative )(3)若乙個例項是負類,但是被**為正類,即為假正類fp(false positive )
(4)若乙個例項是負類,並且被**為負類,即為真負類tn(true negative )
2、準確率(accuracy)
準確率是常用的乙個評價指標,但是不適合樣本不均衡的情況。
3、精確率(precision)
又稱查準率,正確**為正樣本(tp)佔**為正樣本(tp+fp)的百分比。
4、召回率(recall)
又稱為查全率,正確**為正樣本(tp)佔正樣本(tp+fn)的百分比。
5、f1 score
精確率和召回率是相互影響的,精確率公升高則召回率下降,召回率公升高則精確率下降,如果需要兼顧二者,就需要精確率、召回率的結合f1 score。
6、p-r曲線(precision-recall curve)
p-r曲線是描述精確率和召回率變化的曲線
7、roc(receiver operating characteristic) 1. roc空間將假正例率(fpr)定義為 x 軸,真正例率(tpr)定義為 y 軸。
tpr:在所有實際為正例的樣本中,被正確地判斷為正例之比率。
fpr:在所有實際為負例的樣本中,被錯誤地判斷為正例之比率。
auc(area under curve)被定義為 roc曲線 下與座標軸圍成的面積,顯然這個面積的數值不會大於1。又由於roc曲線一般都處於y=x這條直線的上方,所以auc的取值範圍在0.5和1之間。auc越接近1.0,檢測方法真實性越高;等於0.5時,則真實性最低,無應用價值。
金融風控**類常見的評估指標
1、ks(kolmogorov-smirnov)
k-s曲線與roc曲線類似,不同在於
roc曲線將真正例率和假正例率作為橫縱軸
k-s曲線將真正例率和假正例率都作為縱軸,橫軸則由選定的閾值來充當。
公式如下:
ks不同代表的不同情況,一般情況ks值越大,模型的區分能力越強,但是也不是越大模型效果就越好,如果
ks過大,模型可能存在異常,所以當ks值過高可能需要檢查模型是否過擬合。以下為ks值對應的模型情況,
但此對應不是唯一的,只代表大致趨勢。
3. ks值<0.2,一般認為模型沒有區分能力。
4. ks值[0.2,0.3],模型具有一定區分能力,勉強可以接受
5. ks值[0.3,0.5],模型具有較強的區分能力。
6. ks值大於0.75,往往表示模型有異常。
2、roc
3、auc
datawhale零基礎入門金融風控-貨款違約**挑戰賽教程
Datawhale 零基礎入門CV
賽題名稱 零基礎入門cv之街道字元識別 1.匯入所需庫 import os,sys,glob,shutil,json os.environ cuda visible devices 0 import cv2 import matplotlib.pyplot as plt from pil impor...
Datawhale 零基礎入門CV賽事
本章將會講解卷積神經網路 convolutional neural network,cnn 的常見層,並從頭搭建乙個字元識別模型。學習cnn基礎和原理 使用pytorch框架構建cnn模型,並完成訓練 卷積神經網路 簡稱cnn 是一類特殊的人工神經網路,是深度學習中重要的乙個分支。cnn在很多領域都...
Datawhale 零基礎入門CV賽事
在機器學習模型 特別是深度學習模型 的訓練過程中,模型是非常容易過擬合的。深度學習模型在不斷的訓練過程中訓練誤差會逐漸降低,但測試誤差的走勢則不一定。在模型的訓練過程中,模型只能利用訓練資料來進行訓練,模型並不能接觸到測試集上的樣本。因此模型如果將訓練集學的過好,模型就會記住訓練樣本的細節,導致模型...