特徵衍生:在實際工作中,自己用到的是特徵公升維,即one-hot encoding。另一種特徵衍生方法是特徵組合,比如拼接年齡+收入區間成為乙個新特徵,但是在金融行業一般不這麼做、因為可解釋性差容易不符合監管要求。
計算iv函式。在機器學習的二分類問題中,iv值(information value)主要用來對輸入變數進行編碼和**能力評估。特徵變數iv值的大小即表示該變數**能力的強弱。iv 值的取值範圍是[0, 正無窮),如果當前分組中只包含響應客戶或者未響應客戶時,iv = 正無窮。量化指標含義如下:< 0.02useless for prediction、0.02 to 0.1weak predictor、0.1 to 0.3medium predictor、0.3 to 0.5strong predictor 、>0.5 suspicious or too good to be true。
計算iv值的**:
隨機森林進行特徵選擇:
在隨機森林介紹
中提到了隨機森林乙個重要特徵:能夠計算單個特徵變數的重要性。並且這一特徵在很多方面能夠得到應用,例如在銀行貸款業務中能否正確的評估乙個企業的信用度,關係到是否能夠有效地**貸款。但是信用評估模型的資料特徵有很多,其中不乏有很多噪音,所以需要計算出每乙個特徵的重要性並對這些特徵進行乙個排序,進而可以從所有特徵中選擇出重要性靠前的特徵。
一:特徵重要性
在隨機森林中某個特徵x的重要性的計算方法如下:
1:對於隨機森林中的每一顆決策樹,使用相應的oob
(袋外資料)資料來計算它的袋外資料誤差
,記為erroob1.
2: 隨機地對袋外資料oob所有樣本的特徵x加入雜訊干擾(就可以隨機的改變樣本在特徵x處的值),再次計算它的袋外資料誤差,記為erroob2.
3:假設隨機森林中有ntree棵樹,那麼對於特徵x的重要性=∑(erroob2-erroob1)/ntree,之所以可以用這個表示式來作為相應特徵的重要性的度量值是因為:若給某個特徵隨機加入雜訊之後,袋外的準確率大幅度降低,則說明這個特徵對於樣本的分類結果影響很大,也就是說它的重要程度比較高。
1.2.
datawhale資料探勘任務六
通過之前的部落格可以看出,隨機森林的表現效果比較好。所以本次stacking融合的比較基準就是lr。至於融合,用的是隨機森林和邏輯回歸進行融合。為 任務六 使用stacking進行模型融合 構建 stacking 模型,用之前表現較好的lr和隨機森林進行模型融合 s clf stackingclas...
DataWhale 資料探勘 Task2
import warnings import matplotlib.pyplot as plt import pandas as pd import pandas profiling import scipy.stats as st import seaborn as sns warnings.fi...
DataWhale 資料探勘 Task3
特徵工程 import pandas as pd import numpy as np import tsfresh as tsf from tsfresh import extract features,select features from tsfresh.utilities.datafram...