Python風控資料分析學習筆記分類模型的選擇

常見的data mining方法主要分為三大類：

supervised machine learning：regression，classification

unsupervised machine learning：clustering

在信貸風控場景中最常見的就是分類問題，所以常用的方法有：regression的邏輯回歸，classification；clustering有時候也會採用，但解釋起來比較複雜，所以用的比較少。

因此就幾種常見的分類演算法來依次學習一下。

>>對於二元分類問題最常用的就是邏輯回歸方法，它的基本適用條件是：

y服從二項分布：yi ∼ binomial(ni, pi)，即y的結果為0,1；logit(pi) = β0 + β1x1i + β2x2i + …；

>>對logit(pi)進一步解析：

logit(pi)=log(odds)，odds=pi/(1-pi)，

pi=exp(β0 + β1x1i + β2x2i + …)/(1+exp(β0 + β1x1i + β2x2i + …))；

>>當pi越趨近於1時，就越可以估計yi=1；當1-pi越趨近於1時，就越可以估計yi=0；

>>如果樣本值較少的話可以利用parametric bootstrap方法去生成更為可靠的樣本分佈得到更加準確的一些引數估計值；

>>另外和邏輯回歸函式類似的函式還有probit函式，cauchit函式，這些函式均可以用來處理二元分類問題，但在不同情況下效果會有一定差異。

>>對於多元分類問題（多項分布問題）的解決，如果是屬於線性問題的話，多項式邏輯回歸是常用的方法；

>>首先我們假設y存在k類結果：1, 2, 3, …, k；因此我們可以建立類似於二元分類的邏輯回歸，具體如下：

log(pr(y=1|x)/pr(y=k|x)) = α1 + β1x，log(pr(y=2|x)/pr(y=k|x)) = α2 + β2x，…；

相應的：

pr(y=1|x)，pr(y=2|x)，…, pr(y=k|x) 可以依次被引數α1，β1，αk−1，βk−1表示出來；

>>對於引數的估計求解需要使用最大似然估計方法；

>>如果p(y=k|x)屬於高斯分布，則可以採用lda或qda方法，lda和qda方法比較相似，除了兩者的covariance matrix假設不一樣。

>>對於以上三個方法的選擇，沒有太多的區別，三個方法也很難說清楚孰優孰劣，最好就是三個方法都試驗一下，然後比較三個方法的**能力和模型效果，繼而選出最優的模型出來。

金融風控探索性資料分析

乾貨放前面常常存在資料維度過大而用data.head 時候會有列中存在省略號的情況此次金融風控可能無法直接看到n1到n14的所有資訊，可用下面解決 1最大展示60列 pd.set option display.max columns 60 最大展示60行 pd.set option displa...

金融風控 task02資料分析

檢視含缺失值列數 print f there are columns in train dataset with missing values.缺失率視覺化 missing data train.isnull sum len data train missing missing missing 0 ...

python資料分析之pandas學習筆記

import pandas as pd import numpy as np from matplotlib import pyplot as plt from matplotlib import font manager plt.rcparams font.sans serif simhei 這句...

Python風控資料分析學習筆記 分類模型的選擇

金融風控 探索性資料分析

金融風控 task02資料分析

python資料分析之pandas學習筆記

相關推薦

Python風控資料分析學習筆記分類模型的選擇

金融風控探索性資料分析