離散特徵處理方法

2021-09-24 10:34:00 字數 399 閱讀 6352

常用方法:對特徵進行離散化然後進行叉乘,採用笛卡兒積、內積等方式

針對不同特徵型別,有不同的處理方式

區別於顯式特徵組合具有明確的組合解釋資訊,半顯式特徵組合通常的做法是基於樹方法形成特徵劃分並給出相應組合路徑。

作用將樣本的連續值輸入ensemble tree,分別在每棵決策樹沿著特定分支路徑最終落入某個葉子節點得到其編號,本質上是這些特徵在特定取值區間內的組合。採用gdbt或者rf實現,每一輪迭代產生一顆新樹,最終通過one-hot encoding轉換為binary vector 。gbdt + lr/fm

實驗發現:單純採用xgboost自動學到的高階組合特徵輸入lr模型並不能完全替代人工特徵工程作用,可以將原始特徵以及一些人工的高階特徵的交叉特徵同xgboost學習到特徵組合一起放入後續模型,獲得更好的效果。

離散型特徵處理get dummies 方法

官方文件 get dummies 對離散型資料進行one hot編碼 離散特徵的編碼分為兩種情況 1 離散特徵的取值之間沒有大小的意義,比如color red,blue 那麼就使用one hot編碼。2 離散特徵的取值有大小的意義,比如size x,xl,xxl 那麼就使用數值的對映,如。get d...

常用特徵離散化方法

1規定劃分區間的引數,取定長的間隔將特徵放入不同的箱子中,這種方法對異常點比較敏感。2 根據頻率劃分箱子,會出現特徵相同卻不在乙個箱子中的情況,需要在劃分完成後進行微調。先對特徵值進行sort,然後評估分割點,劃分或者合併 3 1r方法 將前面的m個例項放入箱子中如果後面例項放入箱子時,比對當前例項...

特徵處理之資料離散化

二元轉換binarizer binarizer是將連續型變數根據某個閾值,轉換成二元的分類變數。小於該閾值的轉換為0,大於該閾值的轉換為1。要求輸入列必須是double,int都會報錯。如下 輸入的是0.1,0.8,0.2連續型變數,要以0.5為閾值來轉換成二元變數 0,1 列印結果 binariz...