資料探勘之特徵工程

2021-10-04 09:03:35 字數 703 閱讀 4027

是對原始資料進行一系列工程處理,將其提煉為特徵,作為輸入供演算法和模型使用。從本質上來講,特徵工程是乙個表示和展現數 據的過程。在實際工作中,特徵工程旨在去除原始資料中的雜質和冗餘,設計更 高效的特徵以刻畫求解的問題與**模型之間的關係。

特徵工程有很多的方法,其中比較常見的有:

為了消除資料特徵之間的量綱影響,我們需要對特徵進行歸一化處理,使得 不同指標之間具有可比性。 (

1)線性函式歸一化(

min-max scaling

)。它對原始資料進行線性變換使結果對映到[0, 1]

的範圍實現對原始資料的等比縮 放。

歸一化公式如下 

value = max-min/max

其中x為原始資料,

x max

、xmin

分別為資料最大值和最小值。 (

2)零均值歸一化(

z-score normalization

)。它會將原始資料對映到均值為 0、標準差為

1的分布上。具體來說,假設原始特徵的均值為

μ 、標準差為

σ ,那麼 歸一化公式定義為:

value =  x-

μ/σ在實際應用中,通過梯度下降法求解的模 型通常是需要歸一化的,包括線性回歸、邏輯回歸、支援向量機、神經網路等模型。但對於決策樹模型則並不適用,以c4.5

為例.

資料探勘之特徵工程

標籤編碼與獨熱編碼 onehotencoder獨熱編碼和 labelencoder標籤編碼 資料探勘的基本流程 多項式特徵 特徵構建 生成多項式特徵 對於特徵離散化,特徵交叉,連續特徵離散化非常經典的解釋 資料預處理與特徵選擇 特徵工程到底是什麼?機器學習中的資料清洗與特徵處理綜述 sklearn ...

資料探勘 特徵工程

特徵工程 常見的特徵工程包括 總結 1 特徵工程的主要目的是將資料轉換為能更好地表示潛在問題的特徵,從而提高機器學習的效能。比如,異常值處理為了去除雜訊,填補缺失值可以加入先驗知識等。2 特徵構造屬於特徵工程的一部分,目的是為了增強資料的表達。3 如果特徵是匿名特徵,並不知道特徵相互之間的關聯性,這...

資料探勘實戰(二) 特徵工程

一 特徵衍生 二 特徵選擇 利用iv值做特徵選擇 2.1 woe 2.2 iv 一 特徵衍生 利用個人 專家 經驗來提取出資料裡對結果影響更大的特徵,往往是原有資料特徵字段通過加減乘除等操作生成新的字段,這些欄位在結合一些線性演算法做訓練的時候往往能起到提公升模型效果的作用。舉例,使用者點外賣,同一...