快速入門特徵工程

2022-08-23 12:57:06 字數 1436 閱讀 6597

有一句話在業界廣為流傳:特徵工程決定了模型的上界,調參決定模型能夠有多逼近這個上界。

這裡以sklearn為例講講特徵工程。

雖然說分了這麼多部分,但特徵工程最重要的部分還是特徵處理,特徵處理主要包含三個方面,特徵預處理,特徵選擇和降維度。

資料預處理一方面把特徵轉為合適的編碼餵給我們學習演算法,另一方面就是把資料都轉化到乙個同乙個規格。我們平時會用公制單位,那麼對於特徵也要轉化到這樣的公制單位。都是身高體重的資料,轉化到公制下比較方便。

即把特徵轉化到「公制」。

標準化,使得特徵均值為0。

from sklearn.preprocessing import standardscaler

\[x = \frac }

\]歸一化,使得特徵為乙個單位向量。

from sklearn.preprocessing import normalizer

\[x ^ = \frac ^ x [ j ] ^ } }

\]特徵編碼即將男女這樣的特徵進行編碼,轉化為01值。

二值化,設定乙個閾值,大於等於閾值為一類,小於閾值為一類。

from sklearn.preprocessing import binarizer

one-hot編碼,將多分類的特徵變成乙個特徵向量。

from sklearn.preprocessing import onehotencoder

filter方法就是對特徵進行評分,然後選擇評分高的特徵。那麼既然是評分就要涉及到評分方法了。一般有四個評分方法。

方差相關係數

卡方檢驗

互資訊詳細翻閱參考。

降維兩種方法其實之前已經講過了即pac和lda。

from sklearn.decomposition import pca

#主成分分析法,返回降維後的資料

#引數n_components為主成分數目

pca(n_components=2).fit_transform(iris.data)

from sklearn.lda import lda

#線性判別分析法,返回降維後的資料

#引數n_components為降維後的維數

lda(n_components=2).fit_transform(iris.data, iris.target)

使用sklearn做單機特徵工程

機器學習特徵工程實用技巧大全

特徵工程 特徵工程入門與實踐(一)

特徵工程 將資料轉換為能更好地表示潛在問題的特徵,從而提高機器學習效能。大體上,機器學習分為兩類 評估分類問題,可以採用交叉驗證法 from sklearn.linear model import logisticregression from sklearn.model selection imp...

特徵工程入門與實踐 3 特徵增強

第3章 特徵增強 清洗資料 主要內容 識別資料中的缺失值 刪除有害資料 輸入 填充 缺失值 對資料進行歸一化 標準化 構建新特徵 手動或自動選擇 移除 特徵 使用數學矩陣計算將資料集轉換到不同的維度。3.1 識別資料中的缺失值 檢視資料集中是否有資料點是空的,用pandas dataframe內建的...

特徵工程入門與實踐 筆記 sklearn

目錄 一 特徵理解 1 定類資料 2 定序資料 3 定距資料 4 定比資料 二 清洗資料 1 識別缺失值 1 刪除缺失值的行 2 填充缺失值 醫學類資料禁用,因為要求真實 2 標準化 歸一化 三 特徵構建 1 定類特徵的填充 2 定量特徵的填充 3 定類特徵的編碼 4 定序特徵的編碼 5 連續值分箱...