風控比賽第三彈

2021-10-09 15:54:25 字數 695 閱讀 1781

對於結構化資料,可以考慮直接放到模型當中暴力學習,但沒有萬能的模型(或許以後會有,能夠實現資料自動提取清洗,特徵構建優化哈哈哈)比如本次天池的這此風險**,構造乙個地域欺詐率特徵,直接使用lgb模型可達到0.7346的成績,想進一步提公升就要深入了解資料,進行特徵工程。

資料簡單預處理:

a. 缺失值的填充

b. 時間格式處理

c. 物件型別特徵轉換到數值

異常值處理:

a. 基於3segama原則

b. 基於箱型圖

資料分箱

a. 固定寬度分箱

b. 分位數分箱

離散數值型資料分箱

連續數值型資料分箱

c. 卡方分箱(選做作業)

特徵互動

a. 特徵和特徵之間組合

b. 特徵和特徵之間衍生

c. 其他特徵衍生的嘗試(選做作業)

特徵編碼

a. one-hot編碼

b. label-encode編碼

異常值處理:

a. 基於3segama原則:將資料的上下限限定在sigmoid內減小異常值的影響

b. 基於箱型圖:視覺化同理

特徵編碼

a. one-hot編碼:適用於分類數量較少的特徵

b. label-encode編碼:對object型別如果不考慮大小值可以直接進行label-encode

金融風控(三) 特徵工程

如下 按照平均數填充數值型特徵 data train numerical fea data train numerical fea fillna data train numerical fea median data test a numerical fea data test a numeric...

oracle第三彈 總結

前兩彈我們了解了oracle安裝的詳細步驟及配置,對oralce已經有了基本的了解。但僅僅按照文件執行一遍是不行的,我們無論在學習工作中都要善於總結,只有總結才能成長。好,廢話不多說,開始總結。總結我們主要從以下3點進行 1 專有名詞解釋 2 回顧下我們安裝的步驟,在安裝過程中所接觸到的專有的名詞 ...

折騰Ubuntu(第三彈)

提取碼 clwan674deb直接安裝,第一次執行要 sudo ruijieclient g生成配置檔案 然後開啟檔案 sudo gedit etc ruijie.conf eth0025 103.35 1 按照上面注釋裡的配置,就改三項,其他不要改 當然在網絡卡設定中也要設定ip 神木的,重啟後便...