Task 3 特徵工程

2021-10-04 13:02:35 字數 619 閱讀 6965

1.異常處理

2.特徵歸一化/標準化

3.資料分桶

4.缺失值處理

5.特徵構造

1.異常處理

(1)通過箱線圖(或3-sigma)分析刪除異常值;

(2)box-cox轉換(處理有偏分布);

(3)長尾截斷、;

(1)標準化**換為正態分佈);

(2)歸一化;

(3)針對冪律分布,可採用公式:???( 1+x/(1+median))

(1)等頻分桶;

(2)等距分桶;

(3)best-ks 分桶(類似利用基尼指數進行二分類);

(4)卡方分桶;

(1)不處理(針對類似 xgboost 等樹模型);

(2)刪除(缺失資料太多);

(3)插值補全,包括均值/中位數/眾數/建模**/多重插補/壓縮感知補全/矩陣補全等;

(4)分箱,缺失值乙個箱

(1)構造統計量特徵,報告計數、求和、比例、標準差等;

(2)時間特徵,包括相對時間和絕對時間,節假日,雙休日等;

(3)地理資訊,包括分箱,分布編碼等方法;

(4)非線性變換,包括 log/ 平方/ 根號等;

(5)特徵組合,特徵交叉;

Task 3 特徵工程

1 通過箱線圖 或3 sigma 分析刪除異常值 2 box cox轉換 處理有偏分布 3 長尾截斷 1 標準化 換為正態分佈 2 歸一化 3 針對冪律分布,可採用公式 1 x 1 median 1 等頻分桶 2 等距分桶 3 best ks 分桶 類似利用基尼指數進行二分類 4 卡方分桶 1 不處...

金融風控TASK3特徵工程

學習目標 學習特徵預處理 缺失值 異常值處理 資料分桶等特徵處理方法 學習特徵互動 編碼 選擇的相應方法 資料預處理常見方法 缺失值的填充 時間格式處理 物件型別特徵轉換到數值 異常值處理 基於3segama原則 基於箱型圖 資料分箱 固定寬度分箱b 分位數分箱離散數值型資料分箱連續數值型資料分箱 ...

task3特徵工程 task2EDA分析補充

由於task2打卡失誤,僅包含賽題理解,所以在task3中做乙個補充 eda中使用到的基本方法 data.shape 檢視資料行列總數 data.describe 檢視均值,標準差,資料分布等 data.info 資料資訊 data.isnull sum 檢視資料為空總數 missingno繪製缺失...