對於結構化資料,可以考慮直接放到模型當中暴力學習,但沒有萬能的模型(或許以後會有,能夠實現資料自動提取清洗,特徵構建優化哈哈哈)比如本次天池的這此風險**,構造乙個地域欺詐率特徵,直接使用lgb模型可達到0.7346的成績,想進一步提公升就要深入了解資料,進行特徵工程。
資料簡單預處理:
a. 缺失值的填充
b. 時間格式處理
c. 物件型別特徵轉換到數值
異常值處理:
a. 基於3segama原則
b. 基於箱型圖
資料分箱
a. 固定寬度分箱
b. 分位數分箱
離散數值型資料分箱
連續數值型資料分箱
c. 卡方分箱(選做作業)
特徵互動
a. 特徵和特徵之間組合
b. 特徵和特徵之間衍生
c. 其他特徵衍生的嘗試(選做作業)
特徵編碼
a. one-hot編碼
b. label-encode編碼
異常值處理:
a. 基於3segama原則:將資料的上下限限定在sigmoid內減小異常值的影響
b. 基於箱型圖:視覺化同理
特徵編碼
a. one-hot編碼:適用於分類數量較少的特徵
b. label-encode編碼:對object型別如果不考慮大小值可以直接進行label-encode
金融風控(三) 特徵工程
如下 按照平均數填充數值型特徵 data train numerical fea data train numerical fea fillna data train numerical fea median data test a numerical fea data test a numeric...
oracle第三彈 總結
前兩彈我們了解了oracle安裝的詳細步驟及配置,對oralce已經有了基本的了解。但僅僅按照文件執行一遍是不行的,我們無論在學習工作中都要善於總結,只有總結才能成長。好,廢話不多說,開始總結。總結我們主要從以下3點進行 1 專有名詞解釋 2 回顧下我們安裝的步驟,在安裝過程中所接觸到的專有的名詞 ...
折騰Ubuntu(第三彈)
提取碼 clwan674deb直接安裝,第一次執行要 sudo ruijieclient g生成配置檔案 然後開啟檔案 sudo gedit etc ruijie.conf eth0025 103.35 1 按照上面注釋裡的配置,就改三項,其他不要改 當然在網絡卡設定中也要設定ip 神木的,重啟後便...