常見的data mining方法主要分為三大類:
supervised machine learning:regression,classification
unsupervised machine learning:clustering
在信貸風控場景中最常見的就是分類問題,所以常用的方法有:regression的邏輯回歸,classification;clustering有時候也會採用,但解釋起來比較複雜,所以用的比較少。
因此就幾種常見的分類演算法來依次學習一下。
>>對於二元分類問題最常用的就是邏輯回歸方法,它的基本適用條件是:
y服從二項分布:yi ∼ binomial(ni, pi),即y的結果為0,1;logit(pi) = β0 + β1x1i + β2x2i + …;
>>對logit(pi)進一步解析:
logit(pi)=log(odds),odds=pi/(1-pi),
pi=exp(β0 + β1x1i + β2x2i + …)/(1+exp(β0 + β1x1i + β2x2i + …));
>>當pi越趨近於1時,就越可以估計yi=1;當1-pi越趨近於1時,就越可以估計yi=0;
>>如果樣本值較少的話可以利用parametric bootstrap方法去生成更為可靠的樣本分佈得到更加準確的一些引數估計值;
>>另外和邏輯回歸函式類似的函式還有probit函式,cauchit函式,這些函式均可以用來處理二元分類問題,但在不同情況下效果會有一定差異。
>>對於多元分類問題(多項分布問題)的解決,如果是屬於線性問題的話,多項式邏輯回歸是常用的方法;
>>首先我們假設y存在k類結果:1, 2, 3, …, k;因此我們可以建立類似於二元分類的邏輯回歸,具體如下:
log(pr(y=1|x)/pr(y=k|x)) = α1 + β1x,log(pr(y=2|x)/pr(y=k|x)) = α2 + β2x,…;
相應的:
pr(y=1|x),pr(y=2|x),…, pr(y=k|x) 可以依次被引數α1,β1,αk−1,βk−1表示出來;
>>對於引數的估計求解需要使用最大似然估計方法;
>>如果p(y=k|x)屬於高斯分布,則可以採用lda或qda方法,lda和qda方法比較相似,除了兩者的covariance matrix假設不一樣。
>>對於以上三個方法的選擇,沒有太多的區別,三個方法也很難說清楚孰優孰劣,最好就是三個方法都試驗一下,然後比較三個方法的**能力和模型效果,繼而選出最優的模型出來。
金融風控 探索性資料分析
乾貨放前面 常常存在資料維度過大而用data.head 時候會有列中存在省略號的情況 此次金融風控可能無法直接看到n1到n14的所有資訊,可用下面解決 1最大展示60列 pd.set option display.max columns 60 最大展示60行 pd.set option displa...
金融風控 task02資料分析
檢視含缺失值列數 print f there are columns in train dataset with missing values.缺失率視覺化 missing data train.isnull sum len data train missing missing missing 0 ...
python資料分析之pandas學習筆記
import pandas as pd import numpy as np from matplotlib import pyplot as plt from matplotlib import font manager plt.rcparams font.sans serif simhei 這句...