特點:
對不同特徵維度的伸縮錶換的目的是使各個特徵維度對目標函式的影響權重是一致的,即使得那些扁平分布的資料伸縮變換成類圓形。這也就改變了原始資料的乙個分布。
好處:
1)提高迭代求解的收斂速度
2)提高迭代求解的精度
方法:
1)min-max標準化
也成為離差標準化,對原始資料的的線性變換,結果值對映到[0-1]之間。轉換函式如下:
其中max為樣本資料的最大值,min為樣本資料的最小值。這種方法有個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義。
2)z-score標準化方法
這種方法給予原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。經過處理的資料符合標準正態分佈,即均值為0,標準差為
1,轉化函式為:
1. "font-size:18px;"
>
# ...
2.defstandardize(x):
3. """特徵標準化處理
4. 5.
args:
6. x: 樣本集
7. returns:
8. 標準後的樣本集
9. """
10.
m, n = x.shape
11.
# 歸一化每乙個特徵
12.
forjinrange(n):
13.
features = x[:,j]
14.
meanval = features.mean(axis=0)
15.
std = features.std(axis=0)
16.
ifstd != 0:
17.
x[:, j] = (features-meanval)/std
18.
else
19.
x[:, j] = 0
20.
returnx
21.
22.defnormalize(x):
23.
"""min-max normalization sklearn.preprocess 的maxminscalar
24.
25.
args:
26.
x: 樣本集
27.
returns:
28.
歸一化後的樣本集
29.
"""30.
m, n = x.shape
31.
# 歸一化每乙個特徵
32.
forjinrange(n):
33.
features = x[:,j]
34.
minval = features.min(axis=0)
35.
maxval = features.max(axis=0)
36.
diff = maxval - minval
37.
ifdiff != 0:
38.
x[:,j] = (features-minval)/diff
39.
else:
40.
x[:,j] = 0
41.
returnx
特點:
對不同特徵維度的伸縮變換的目的是使得不同度量之間的特徵具有可比性。同時不改變原始資料的分布。
好處:
1)使得不同度量之間的特徵具有可比性,對目標函式的影響體現在幾何分布上,而不是數值上。
2)不改變原始資料的分布。
歸一化與標準化
1 提公升訓練的速度 2 提公升模型的精度 3 深度模型中能夠防止梯度 min max 歸一化 x x x min x max x min 將x 對映到 0,1 之間的乙個數 z score 標準化 均值為0 標準差為1 當有新的樣本加入時,min max 計算量小,z score 需要重新計算均值...
歸一化與標準化詳解
歸一化 normalization 1.把資料變為 0,1 之間的小數。主要是為了方便資料處理,因為將資料對映到0 1範圍之內,可以使處理過程更加便捷 快速。2.把有量綱表示式變換為無量綱表示式,成為純量。經過歸一化處理的資料,處於同一數量級,可以消除指標之間的量綱和量綱單位的影響,提高不同資料指標...
歸一化與標準化區別
常用的方法是通過對原始資料進行線性變換把資料對映到 0,1 之間,變換函式為 不同變數往往量綱不同,歸一化可以消除量綱對最終結果的影響,使不同變數具有可比性。在不涉及距離度量 協方差計算 資料不符合正太分布的時候,可以使用歸一化方法。比如影象處理中,將rgb影象轉換為灰度影象後將其值限定在 0 25...