Python風控資料分析學習筆記 分類模型的選擇

2021-10-08 03:10:50 字數 1398 閱讀 9291

常見的data mining方法主要分為三大類:

supervised machine learning:regression,classification

unsupervised machine learning:clustering

在信貸風控場景中最常見的就是分類問題,所以常用的方法有:regression的邏輯回歸,classification;clustering有時候也會採用,但解釋起來比較複雜,所以用的比較少。

因此就幾種常見的分類演算法來依次學習一下。

>>對於二元分類問題最常用的就是邏輯回歸方法,它的基本適用條件是:

y服從二項分布:yi ∼ binomial(ni, pi),即y的結果為0,1;logit(pi) = β0 + β1x1i + β2x2i + …;

>>對logit(pi)進一步解析:

logit(pi)=log(odds),odds=pi/(1-pi),

pi=exp(β0 + β1x1i + β2x2i + …)/(1+exp(β0 + β1x1i + β2x2i + …));

>>當pi越趨近於1時,就越可以估計yi=1;當1-pi越趨近於1時,就越可以估計yi=0;

>>如果樣本值較少的話可以利用parametric bootstrap方法去生成更為可靠的樣本分佈得到更加準確的一些引數估計值;

>>另外和邏輯回歸函式類似的函式還有probit函式,cauchit函式,這些函式均可以用來處理二元分類問題,但在不同情況下效果會有一定差異。

>>對於多元分類問題(多項分布問題)的解決,如果是屬於線性問題的話,多項式邏輯回歸是常用的方法;

>>首先我們假設y存在k類結果:1, 2, 3, …, k;因此我們可以建立類似於二元分類的邏輯回歸,具體如下:

log(pr(y=1|x)/pr(y=k|x)) = α1 + β1x,log(pr(y=2|x)/pr(y=k|x)) = α2 + β2x,…;

相應的:

pr(y=1|x),pr(y=2|x),…, pr(y=k|x) 可以依次被引數α1,β1,αk−1,βk−1表示出來;

>>對於引數的估計求解需要使用最大似然估計方法;

>>如果p(y=k|x)屬於高斯分布,則可以採用lda或qda方法,lda和qda方法比較相似,除了兩者的covariance matrix假設不一樣。

>>對於以上三個方法的選擇,沒有太多的區別,三個方法也很難說清楚孰優孰劣,最好就是三個方法都試驗一下,然後比較三個方法的**能力和模型效果,繼而選出最優的模型出來。

金融風控 探索性資料分析

乾貨放前面 常常存在資料維度過大而用data.head 時候會有列中存在省略號的情況 此次金融風控可能無法直接看到n1到n14的所有資訊,可用下面解決 1最大展示60列 pd.set option display.max columns 60 最大展示60行 pd.set option displa...

金融風控 task02資料分析

檢視含缺失值列數 print f there are columns in train dataset with missing values.缺失率視覺化 missing data train.isnull sum len data train missing missing missing 0 ...

python資料分析之pandas學習筆記

import pandas as pd import numpy as np from matplotlib import pyplot as plt from matplotlib import font manager plt.rcparams font.sans serif simhei 這句...