《百面機器學習》
為了消除資料特徵之間的量綱影響,使得不同指標之間具有可比性。在實際應用中,通過梯度下降法求解的模型通常是需要歸一化的。但對於決策樹模型並不適用。
對原始資料進行線性變換,使結果對映到[0,1],實現對原始資料的等比縮放。公式如下:
x no
rm=x
−xmi
nxma
x−xm
in
x_=\frac}-x_}
xnorm
=xma
x−x
min
x−xm
in
其中x
xx為原始資料,xma
xx_
xmax、xmi
nx_
xmin
分別為資料的最大值和最小值。
**示例
from sklearn.preprocessing import minmaxscaler
scaler = minmaxscaler(
)x =[[
90,2,
10,40]
,[60,
4,15,
45],[
75,3,
13,46]
]x_norm = scaler.fit_transform(x)
print
(x_norm)
# [[1. 0. 0. 0. ]
# [0. 1. 1. 0.83333333]
# [0.5 0.5 0.6 1. ]]
又稱標準化,即將原始資料對映到均值為0、標準差為1的分布上。具體地,設原始特徵的均值為μ
\muμ、標準差為σ
\sigma
σ,公式為:
z =x
−μ
σz=\frac
z=σx−μ
**示例
from sklearn.preprocessing import standardscaler
scaler = standardscaler(
)x =[[
90,2,
10,40]
,[60,
4,15,
45],[
75,3,
13,46]
]x_norm = scaler.fit_transform(x)
print
(x_norm)
# [[ 1.22474487 -1.22474487 -1.29777137 -1.3970014 ]
# [-1.22474487 1.22474487 1.13554995 0.50800051]
# [ 0. 0. 0.16222142 0.88900089]]
特徵工程 特徵歸一化
為了消除資料特徵之間的量綱影響,需要對特徵進行歸一化 normalization 處理,使得不同特徵處於同乙個數量級,具有可比性 2.1 線性函式歸一化 min max scaling 對原始資料進行線性變換,使結果對映到 0,1 的範圍內,實現對原始資料的等比縮放。歸一化公式 其中,x為原始資料,...
特徵歸一化
我們在衡量一些事物時,我們總是不能同等程度的看待各個特徵,無法對這個事物做出準確的衡量,即我們沒有將各個特徵量化到統一的區間。為了解決這樣的問題,我們引出了特徵歸一化 目錄 特徵歸一化的概念 特徵歸一化必要性 資料標準化的意義 資料標準化的方法 資料的標準化 normalization 是將資料按比...
特徵工程之特徵選擇
在前一篇文章中我介紹了一些資料預處理的方法,原始資料在經過預處理之後可以被演算法處理了,但是實際中可能有一些特徵是沒有必要的,比如在中國採集的一些資料,那麼國籍就都是中國,其實也就沒有意義了,反映在統計量上就是方差過小,也就是樣本在這個特徵上變化很小。還有一種情況是特徵和最後的結果相關性很小,也就是...