特徵工程之特徵歸一化

2021-10-25 15:10:09 字數 1509 閱讀 1513

《百面機器學習》

為了消除資料特徵之間的量綱影響,使得不同指標之間具有可比性。在實際應用中,通過梯度下降法求解的模型通常是需要歸一化的。但對於決策樹模型並不適用。

對原始資料進行線性變換,使結果對映到[0,1],實現對原始資料的等比縮放。公式如下:

x no

rm=x

−xmi

nxma

x−xm

in

x_=\frac}-x_}

xnorm​

=xma

x​−x

min​

x−xm

in​​

其中x

xx為原始資料,xma

xx_

xmax​、xmi

nx_

xmin

​分別為資料的最大值和最小值。

**示例

from sklearn.preprocessing import minmaxscaler

scaler = minmaxscaler(

)x =[[

90,2,

10,40]

,[60,

4,15,

45],[

75,3,

13,46]

]x_norm = scaler.fit_transform(x)

print

(x_norm)

# [[1. 0. 0. 0. ]

# [0. 1. 1. 0.83333333]

# [0.5 0.5 0.6 1. ]]

又稱標準化,即將原始資料對映到均值為0、標準差為1的分布上。具體地,設原始特徵的均值為μ

\muμ、標準差為σ

\sigma

σ,公式為:

z =x

−μ

σz=\frac

z=σx−μ

​**示例

from sklearn.preprocessing import standardscaler

scaler = standardscaler(

)x =[[

90,2,

10,40]

,[60,

4,15,

45],[

75,3,

13,46]

]x_norm = scaler.fit_transform(x)

print

(x_norm)

# [[ 1.22474487 -1.22474487 -1.29777137 -1.3970014 ]

# [-1.22474487 1.22474487 1.13554995 0.50800051]

# [ 0. 0. 0.16222142 0.88900089]]

特徵工程 特徵歸一化

為了消除資料特徵之間的量綱影響,需要對特徵進行歸一化 normalization 處理,使得不同特徵處於同乙個數量級,具有可比性 2.1 線性函式歸一化 min max scaling 對原始資料進行線性變換,使結果對映到 0,1 的範圍內,實現對原始資料的等比縮放。歸一化公式 其中,x為原始資料,...

特徵歸一化

我們在衡量一些事物時,我們總是不能同等程度的看待各個特徵,無法對這個事物做出準確的衡量,即我們沒有將各個特徵量化到統一的區間。為了解決這樣的問題,我們引出了特徵歸一化 目錄 特徵歸一化的概念 特徵歸一化必要性 資料標準化的意義 資料標準化的方法 資料的標準化 normalization 是將資料按比...

特徵工程之特徵選擇

在前一篇文章中我介紹了一些資料預處理的方法,原始資料在經過預處理之後可以被演算法處理了,但是實際中可能有一些特徵是沒有必要的,比如在中國採集的一些資料,那麼國籍就都是中國,其實也就沒有意義了,反映在統計量上就是方差過小,也就是樣本在這個特徵上變化很小。還有一種情況是特徵和最後的結果相關性很小,也就是...