演算法實踐 特徵工程

2021-09-07 15:30:41 字數 388 閱讀 2995

資料集是金融資料(非原始資料,已經處理過了),我們要做的是**貸款使用者是否會逾期。**中 "status" 是結果標籤:0表示未逾期,1表示逾期。

特徵選擇:分別用iv值和隨機森林進行特徵選擇。再用7個模型(邏輯回歸、svm、決策樹、隨機森林、gbdt、xgboost和lightgbm),進行模型評估。

iv的全稱是information value,中文意思是資訊價值,或者資訊量。iv可以用來衡量自變數的**能力

woe的全稱是「weight of evidence」,即證據權重。woe是對原始自變數的一種編碼形式。

要對乙個變數進行woe編碼,需要首先把這個變數進行分組處理(也叫離散化、分箱等等,說的都是乙個意思)。分組後,對於第i組,woe的計算公式如下:

特徵工程 特徵工程入門與實踐(一)

特徵工程 將資料轉換為能更好地表示潛在問題的特徵,從而提高機器學習效能。大體上,機器學習分為兩類 評估分類問題,可以採用交叉驗證法 from sklearn.linear model import logisticregression from sklearn.model selection imp...

特徵工程入門與實踐 3 特徵增強

第3章 特徵增強 清洗資料 主要內容 識別資料中的缺失值 刪除有害資料 輸入 填充 缺失值 對資料進行歸一化 標準化 構建新特徵 手動或自動選擇 移除 特徵 使用數學矩陣計算將資料集轉換到不同的維度。3.1 識別資料中的缺失值 檢視資料集中是否有資料點是空的,用pandas dataframe內建的...

機器學習實踐之特徵工程

特徵工程是機器學習任務中非常核心的部分,特徵工程質量的好壞直接影響著模型訓練結果的好壞。常見的特徵工程可以分為特徵抽象 特徵重要性評估 特徵衍生和特徵降維等幾個方面。特徵抽象是指將原始資料抽象成演算法 或模型 可以理解的資料。針對不同的資料型別,主要有如下特徵抽象方法 1 時間戳。主要是針對具有鮮明...