1、歸一化是什麼
狹義的歸一化(最大最小歸一化)是指對多維資料(特徵)x=[
x1,.
..,x
i,..
.xd]
x=[x_1,...,x_i,...x_d]
x=[x1
,...
,xi
,...
xd]
的每一維進行xi′
=xi−
min(
xi)m
ax(x
i)−m
in(x
i)
x'_i=\frac
xi′=m
ax(x
i)−
min(
xi)
xi−
min(
xi)
操作。其中max
(xi)
,min
(xi)
max(x_i),min(x_i)
max(xi
),m
in(x
i)是特徵維相關的,也就是不同的特徵維度有不同的最大值最小值。
2、標準化是什麼
狹義的標準化(zscore標準化)是指對多維資料(特徵)x=[
x1,.
..,x
i,..
.xd]
x=[x_1,...,x_i,...x_d]
x=[x1
,...
,xi
,...
xd]
的每一維進行xi′
=xi−
mean
(xi)
std(
xi
)x'_i=\frac
xi′=s
td(x
i)x
i−m
ean(
xi)
操作。其中mea
n(xi
),st
d(xi
)mean(x_i),std(x_i)
mean(x
i),
std(
xi)
是特徵維相關的,也就是不同的特徵維度有不同的均值標準差。
3、區別與聯絡
由此可以看出,二者基本相同,實際上是對樣本x
xx進行了一種特殊的線性變換x′=
(x−a
)b
x' = (x-a)b
x′=(x−
a)b。有細微差別,差別在於變換係數的選取不同。有時二者統稱為歸一化技術。經過這種歸一化,原始資料等於進行了平移和放縮操作,樣本距離y′−
x′=(
y−x)
b=y−
xb
\sqrt=\sqrt=\sqrt\sqrt b
y′−x′
=(y−
x)b
=y−x
b發生了變化,樣本分佈也發生了變化(分布型別沒變化,分布引數發生了變化)。
3、有什麼用
在機器學習中經常遇到資料樣本x的各個維度的數量級相差很大,非常不利於大多數機器學習有效進行優化操作(決策樹可以不做歸一化,因為在決策樹中各個維度間沒有加權求和操作)。由於大數量級的特徵維度的往往淹沒了小數量級的貢獻,要想平衡他們的貢獻進而得到合理的決策輸出,機器學習演算法需要得到數量級非常不同的引數。優化難度大,效率低。因此常常預處理中將資料歸一化。
如果對數值範圍有明確要求,則採用最大最小歸一化。如果對數值範圍沒有要求,則可以採用zscore歸一化技術。
歸一化與標準化
特點 對不同特徵維度的伸縮錶換的目的是使各個特徵維度對目標函式的影響權重是一致的,即使得那些扁平分布的資料伸縮變換成類圓形。這也就改變了原始資料的乙個分布。好處 1 提高迭代求解的收斂速度 2 提高迭代求解的精度 方法 1 min max標準化 也成為離差標準化,對原始資料的的線性變換,結果值對映到...
歸一化與標準化
1 提公升訓練的速度 2 提公升模型的精度 3 深度模型中能夠防止梯度 min max 歸一化 x x x min x max x min 將x 對映到 0,1 之間的乙個數 z score 標準化 均值為0 標準差為1 當有新的樣本加入時,min max 計算量小,z score 需要重新計算均值...
歸一化與標準化詳解
歸一化 normalization 1.把資料變為 0,1 之間的小數。主要是為了方便資料處理,因為將資料對映到0 1範圍之內,可以使處理過程更加便捷 快速。2.把有量綱表示式變換為無量綱表示式,成為純量。經過歸一化處理的資料,處於同一數量級,可以消除指標之間的量綱和量綱單位的影響,提高不同資料指標...