把資料變成(0,1)之間的小數。主要是為了資料處理方便提出來的,把資料對映到0~1範圍之內處理,更加便捷快速。把有量綱表示式變成無量綱表示式,便於不同單位或量級的指標能夠進行比較和加權。歸一化是一種簡化計算的方式,即將有量綱的表示式,經過變換,化為無量綱的表示式,成為純量。
所謂「歸一」,注意「一」,就是把資料歸到(0,1)這個區間內。
常用的方法有: min-max歸一化
y =x
−min
max−
mi
ny=
y=max−
minx
−min
其中,x為原資料,y為處理後的資料,min為資料最小值,max為資料最大值
# 匯入minmaxscaler
from sklearn.preprocessing import minmaxscaler
#使用minmaxscaler進行資料預處理
x_minmax=minmaxscaler(
).fit_transform(x)
在機器學習中,我們可能要處理不同種類的資料,例如,音訊和上的畫素值,這些資料可能是高維度的,資料標準化後會使每個特徵中的數值平均變為0(將每個特徵的值都減掉原始資料中該特徵的平均)、標準差變為1
所謂「標準」,就是標準正態分佈,把資料轉換成標準正態分佈。
常用的方法有:z-score標準化,即零-均值標準化
y =x
−μ
σy=
y=σx−μ
其中,x為原資料,y為處理後的資料,μ為平均,σ為標準差
# 匯入standardscaler
from sklearn.preprocessing import standardscaler
#使用standardscaler進行資料預處理
x_stand=standardscaler(
).fit_transform(x)
歸一化是為了消除不同資料之間的量綱,方便資料比較和共同處理,比如在神經網路中,歸一化可以加快訓練網路的收斂性;標準化是為了方便資料的下一步處理,而進行的資料縮放等變換,並不是為了方便與其他資料一同處理或比較,比如資料經過零-均值標準化後,更利於使用標準正態分佈的性質,進行處理 資料處理之標準化 歸一化方法
主要是為了資料處理方便提出來的,把資料對映到0 1範圍之內處理,更加便捷快速,應該歸到數字訊號處理範疇之內。歸一化是一種簡化計算的方式,即將有量綱的表示式,經過變換,化為無量綱的表示式,成為純量。比如,複數阻抗可以歸一化書寫 z r j l r 1 j l r 複數部分變成了純數量了,沒有量綱。另外...
資料標準化(歸一化)
資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...
資料標準化 歸一化
資料標準化 歸一化 處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一...