異常值處理
資料分箱
卡方分箱(選做作業)
特徵互動
特徵編碼
特徵選擇
首先我們查詢出資料中的物件特徵和數值特徵
在比賽中資料預處理是必不可少的一部分,對於缺失值的填充往往會影響比賽的結果,在比賽中不妨嘗試多種填充然後比較結果選擇結果最優的一種; 比賽資料相比真實場景的資料相對要「乾淨」一些,但是還是會有一定的「髒」資料存在,清洗一些異常值往往會獲得意想不到的效果。
時間格式處理
物件型別特徵轉換到數值
類別特徵處理
檢測異常的方法一:均方差 在統計學中,如果乙個資料分布近似正態,那麼大約 68% 的資料值會在均值的乙個標準差範圍內,大約 95% 會在兩個標準差範圍內,大約 99.7% 會在三個標準差範圍內。
檢測異常的方法二:箱型圖 總結一句話:四分位數會將資料分為三個點和四個區間,iqr = q3 -q1,下觸鬚=q1 − 1.5x iqr,上觸鬚=q3 + 1.5x iqr
資料分桶的物件:
分箱的原因:
分箱的優點:
特別要注意一下分箱的基本原則:
邏輯回歸等模型要單獨增加的特徵工程
特徵選擇的方法:
3 embedded
特徵工程是機器學習,甚至是深度學習中最為重要的一部分,在實際應用中往往也是所花費時間最多的一步。各種演算法書中對特徵工程部分的講解往往少得可憐,因為特徵工程和具體的資料結合的太緊密,很難系統地覆蓋所有場景。本章主要是通過一些常用的方法來做介紹,例如缺失值異常值的處理方法詳細對任何資料集來說都是適用的。但對於分箱等操作本章給出了具體的幾種思路。在特徵工程中比賽和具體的應用還是有所不同的,在實際的金融風控評分卡製作過程中,由於強調特徵的可解釋性,特徵分箱尤其重要。
零基礎入門資料探勘 task3 特徵工程
關於特徵工程學習材料和直播的總結和理解。可以增強資料表達 新增先驗知識。特徵工程一般常常與eda資料分析結合。資料分析和特徵工程有交集,可互為補充。異常處理 特徵歸一化 標準化 資料分桶 缺失值處理 特徵構造 特徵篩選 嵌入式 embedding 結合過濾式和包裹式,學習器訓練過程中自動進行了特徵選...
Datawhale 零基礎入門金融風控(一)
一般而言,對於資料在比賽介面都有對應的資料概況介紹 匿名特徵除外 說明列的性質特徵。了解列的性質會有助於我們對於資料的理解和後續分析。train.csv id 為貸款清單分配的唯一信用證標識 loanamnt 貸款金額 term 貸款期限 year interestrate 貸款利率 install...
Datawhale 零基礎入門金融風控(五)
stacking 將若干基學習器獲得的 結果,將 結果作為新的訓練集來訓練乙個學習器。如下圖 假設有五個基學習器,將資料帶入五基學習器中得到 結果,再帶入模型六中進行訓練 但是由於直接由五個基學習器獲得結果直接帶入模型六中,容易導致過擬合。所以在使用五個及模型進行 的時候,可以考慮使用k折驗證,防止...