anthor:小李江湖
date:2020-9-15
好記性不如爛筆頭!
最近報名參加阿里天池金融風控貸款違約**大賽,學習資料分析方法,以賽學習,在此記錄學習的過程,總結參加大賽的方法。
1.1 參賽目的阿里天池平台為初學者提供學習平台,為大神提供展示才華平台。
本人一直在學習的門口遲遲徘徊無法入門,藉此機會系統學習參加大賽的流程,掌握分類學習方法。
2.1 賽題背景
賽題以金融風控中的個人信貸為背景,要求選手根據貸款申請人的資料資訊**其是否有違約的可能,以此判斷是否通過此項貸款,這是乙個典型的分類問題。通過這道賽題來引導大家了解金融風控中的一些業務背景,解決實際問題,幫助競賽新人進行自我練習、自我提高
2.2 賽題資料
字段表field description
id 為貸款清單分配的唯一信用證標識
loanamnt 貸款金額
term 貸款期限(year)
interestrate 貸款利率
installment 分期付款金額
grade 貸款等級
subgrade 貸款等級之子級
employmenttitle 就業職稱
employmentlength 就業年限(年)
homeownership 借款人在登記時提供的房屋所有權狀況
annualincome 年收入
verificationstatus 驗證狀態
issuedate 貸款發放的月份
purpose 借款人在貸款申請時的貸款用途類別
regioncode 地區編碼
dti 債務收入比
delinquency_2years 借款人過去2年信用檔案中逾期30天以上的違約事件數
ficorangelow 借款人在貸款發放時的fico所屬的下限範圍
ficorangehigh 借款人在貸款發放時的fico所屬的上限範圍
openacc 借款人信用檔案中未結信用額度的數量
pubrec 貶損公共記錄的數量
pubrecbankruptcies 公開記錄清除的數量
revolbal 信貸周轉餘額合計
revolutil 迴圈額度利用率,或借款人使用的相對於所有可用迴圈信貸的信貸金額
totalacc 借款人信用檔案中當前的信用額度總數
initialliststatus 貸款的初始列表狀態
earliescreditline 借款人最早報告的信用額度開立的月份
title 借款人提供的貸款名稱
policycode 公開可用的策略_**=1新產品不公開可用的策略_**=2
n系列匿名特徵 匿名特徵n0-n14,為一些貸款人行為計數特徵的處理
2.3 結果要求
通過以上47個資料指標,**分析isdefault這個欄位的乙個概率值(0-1)。
提交前請確保**結果的格式與sample_submit.csv中的格式一致,以及提交檔案字尾名為csv
提交示例格式:
id,isdefault
800000,0.5
800001,0.5
800002,0.5
800003,0.5
2.4 評價標準
提交結果為每個測試樣本是1的概率,也就是y為1的概率。評價方法為auc評估模型效果(越大越好)
auc介紹:
auc(area under curve)被定義為 roc曲線 下與座標軸圍成的面積。
3.1分類演算法常見概念介紹:
3.1.1、混淆矩陣(confuse matrix)
1. (1)若乙個例項是正類,並且被**為正類,即為真正類tp(true positive ) 2. (2)若乙個例項是正類,但是被**為負類,即為假負類fn(false negative ) 3. (3)若乙個例項是負類,但是被**為正類,即為假正類fp(false positive ) 4. (4)若乙個例項是負類,並且被**為負類,即為真負類tn(true negative )
2、準確率(accuracy)
準確率是常用的乙個評價指標,但是不適合樣本不均衡的情況。
auccracy= (tp+ tn)/(tp+tn+fp+fn)
3、精確率(precision) 又稱查準率,正確**為正樣本(tp)佔**為正樣本(tp+fp)的百分比。
precision = tp/(tp+fp)
4、召回率(recall) 又稱為查全率,正確**為正樣本(tp)佔正樣本(tp+fn)的百分比。
recall = tp/(tp+fn)
5、f1 score
精確率和召回率是相互影響的,精確率公升高則召回率下降,召回率公升高則精確率下降,如果需要兼顧二者,就需 要精確率、召回率的結合f1 score。
f1-score = 2(precision * recall )/(precision +recall )
3.2 **示例`#繪製roc曲線
import matplotlib.pyplot as plt
from sklearn.metrics import roc_curve
from matplotlib.font_manager import fontproperties
#中文字型
font = fontproperties(fname=『c:\windows\fonts\dengb.ttf』,size=19)
y_true = [0,1,1,0,1,1,1,0]
y_prep = [0,1,1,1,0,0,1,0]
fp,tp,_ = roc_curve(y_true,y_prep)
fp,tp, _=roc_curve(y_true, y_prep)
plt.title(「roc曲線」,fontproperties=font)
其他概念**展示如下
理解賽題,才能更好做**分析
做任何事情,必須弄清楚做什麼,了解工作背景,知道需要完成的目標,以及如何呈現結果,因此對賽題的深入理解可以事半功倍!
金融風控專案
一 問題定義 金融的核心是風險控制。自然而然地,ai的主戰場也變成了如何使用ai技術精準的做風險控制。在風控領域,有乙個很重要的問題是 如何通過使用者的資訊來判斷使用者的逾期與否?我們通過收集使用者的基本資訊 地域資訊 社交資訊等來判斷乙個人的逾期概率。資料如下 二 roc與auc 特徵工程 第一 ...
金融風控模型
工作中暫時未涉及。此處為有幸得到的ppt。記錄學習內容,還有些心得,有錯誤請指出,感激 什麼是欺詐風險 網路借款人是否是本人 網路借款人提交的資料是否真實 什麼是信用風險 網路借款人是否有還款的能力 是否是沒有還款意願的老賴,多次違約 貸款公司如何防範以上兩種風險 針對乙個p2p借款的流程來說,借款...
金融風控01 風控業務解析
入門資料推薦 補充資料採集會涉及到埋點和爬蟲。反欺詐引擎 模型 無標籤 反欺詐引擎主要包括兩個部分,反欺詐規則 主要 和反欺詐模型。傳統的監督模型較少的使用到,主要涉及到無監督演算法 社交網路演算法 深度學習 異常檢測 知識圖譜。規則引擎 策略 主要通過資料分析 挖掘手段以及一些監督 無監督演算法,...